[Python爬虫]使用Scrapy框架爬取微博

简介

大家好! 这是我又在一次的使用Scrapy框架进行爬取微博,这里我将微博模块化方便大家使用和理解这里我分成【找人,文章,视频,图片,话题小组】5个模块。

老规矩需要的包如下:

import scrapy
from ..wz import pa (我自己写的随机html头链接如下:https://blog.csdn.net/Black_God1/article/details/81660125)
import re,time
from lxml import etree
from ..items import sql_text
import pandas as pd
import urllib.parse
from datetime import datetime

Scrapy框架

框架图
我在创建的名字有点不太好看,请大家见谅!
存储的文件夹是我测试时用来存储照片和文件的大家也可以存到数据库或其他位置因项目而异。
在这里插入图片描述
wz.py文件依据是我产生随机headers的一个包详细链接如下:

https://blog.csdn.net/Black_God1/article/details/81660125


main.py(启动文件)

from scrapy.cmdline import execute
execute("scrapy crawl pq".split())

setting.py(配置文件)

导入

from .wz import pa

需要改的参数

ROBOTSTXT_OBEY = False

DEFAULT_REQUEST_HEADERS = {
	"Host": "s.weibo.com",
    'User-Agent':pa(),
}

ITEM_PIPELINES = {
    'cshi_3.pipelines.sql_data': 300,
}

pq.py(项目文件)

import scrapy
from ..wz import pa
import re,time
from lxml import etree
from ..items import sql_text
import pandas as pd
import urllib.parse
from datetime import datetime

class PqSpider(scrapy.Spider):
    name = 'pq'
    allowed_domains = ['s.weibo.com']
    start_urls = ['http://s.weibo.com']

    #主目录
    def parse(self, response):
        panduan = input("爬取微博那个模块(用户:1,文章(未完成):2,视频(未完成):3,图片:4 ,话题:5)数字代替》》:")

        name = input("输入关键词:")
        dz = input("输入文件存放位置:")

        ln = input("是否使用coosk进行爬取(确定:1,NO:回车)")
        if ln == '1' or ln == 1:
            cookie = input("coosk文件位置绝对路径:")
            # 使用cookie
            with open(cookie, 'r', encoding='utf-8') as f:
                Account = f.read()
            f.close()
            header = {
                "Host": "s.weibo.com",
                "User-Agent": pa(),
                "cookie": "{}".format(Account),
            }
        else:
            header = {
                "Host": "s.weibo.com",
                "User-Agent":pa(),
            }

        # 找人(名称,特定人,页数默认全部)
        if panduan == 1 or panduan == '1':
            someone=input("是否爬取指定个人信息(是:1,否:2,默认否)》:")
            url = 'http://s.weibo.com/user?q={}'.format
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Black_God1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值