用Scrapy爬取新浪微博用户信息,粉丝,关注数

本文介绍了如何使用Python的Scrapy框架爬取新浪微博的用户信息,包括用户的粉丝数和关注数。通过items.py定义数据结构,pipelines.py实现数据持久化,以及在middlewares.py中设置请求头和IP池来提高爬取效率。
摘要由CSDN通过智能技术生成
通过一段时间对爬虫的学习,发现Scrapy框架真的是一个很好用的框架,接下来让我们用一个简单的例子,来见识一下Scrapy框架的强大之处.
本示例将获取新浪微博指定用户下的所有基本信息,粉丝和关注者,并且通过该用户的关注和粉丝继续深度爬出,简单来说,只要时间够多,ip够用,通过一个用户就可以得到新浪微博所有用户的基础信息

创建项目

scrapy startproject weibospider
目录层级如下:
weibospider
    -weibospider
        -spiders # 爬虫目录,创建爬虫文件
            -__init__.py
            _weibo.py   # 写入爬虫相关信息
        __init__.py
        items.py    # 设置数据存储模板,用于结构化数据,如Django中的models
        middlewares.py  # 设置中间下载键  可以设置请求头和IP池
        pipelines.py   # 一般结构化的数据持久化
        setting.py  # 爬虫运行的相关设置
    main.py   # 设置快捷启动
    scrapy.cfg   # 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息,主要的配置信息在setting.py中

爬取用户信息

import scrapy
from scrapy import Request
import json
from weibospider.items import UserItem, UserRelationItem

class WeiBoUserInfoSpider(scrapy.Spider):
    # 给爬虫唯一命名,通过此命名可以启动爬虫
    name = 'weibo'
    # 通过分析api接口,可以得的用户信息url
    user_urls = 'https://m.weibo.cn/api/container/getIndex?uid={uid}type=uid&value={uid}&containerid=100505{uid}'
    # 通过分析api接口,可以得到该用户关注人的信息的url
    followers_urls = 'https://m.weibo.cn/api/container/getIndex?containerid=231051_-_followers_-_{uid}&page={page}'
    # 通过分析api接口,可以得到该用户粉丝的信息的url
    fans_urls = 'https://m.weibo.cn/api/container/getIndex?containerid=231051_-_fans_-_{uid}&since_id={since_id}'

    uid_lists = [
      '1767840980',
        '1582188504',
        '1759006061',
        '3908615569'
    ]
    # start_requests 会循环生成要访问的网址
    def start_requests(self):
        for uid in uid_lists:
            # 生成器,会访问self.parse_urls函数
            yield Request(self.user_urls.format(uid=uid), callback=self.parse_user)

    def 
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值