【Python】掘金网全站用户爬虫 scrapy

最新推荐文章于 2024-04-26 15:24:59 发布

追梦IT男

最新推荐文章于 2024-04-26 15:24:59 发布

阅读量151

点赞数

文章标签： Python 爬虫

本文链接：https://blog.csdn.net/wcg541/article/details/97262057

版权

本文介绍了如何使用Python的Scrapy框架编写一个全站用户爬虫。从一个用户的关注列表开始，通过获取用户的ID，拼接链接并抓取所需数据。文章详细讲解了爬虫项目的创建、主入口文件的编写以及数据存储的过程，并提出了扩展方向，如多页爬取、多线程和使用redis加速爬虫等。

摘要由CSDN通过智能技术生成

获取全站用户，理论来说从1个用户作为切入点就可以，我们需要爬取用户的关注列表，从关注列表不断的叠加下去。

随便打开一个用户的个人中心

绿色圆圈里面的都是我们想要采集到的信息。这个用户关注0人？那么你还需要继续找一个入口，这个用户一定要关注了别人。选择关注列表，是为了让数据有价值，因为关注者里面可能大量的小号或者不活跃的账号，价值不大。

我选了这样一个入口页面，它关注了3个人，你也可以选择多一些的，这个没有太大影响！
https://juejin.im/user/55fa7cd460b2e36621f07dde/following
我们要通过这个页面，去抓取用户的ID

得到ID之后，你才可以拼接出来下面的链接

https://juejin.im/user/用户ID/following

爬虫编写

分析好了之后，就可以创建一个scrapy项目了

items.py 文件，用来限定我们需要的所有数据，注意到下面有个_id = scrapy.Field() 这个先预留好，是为了mongdb准备的，其他的字段解释请参照注释即可。

class JuejinItem(scrapy.Item):

    _id = scrapy.Field()
    username = scrapy.Field()
    job = scrapy.Field()
    company =scrapy.Field()
    intro = scrapy.Field()
    # 专栏
    columns = scrapy.Field()
    # 沸点
    boiling = scrapy.Field()
    # 分享
    shares = scrapy.Field()
    # 赞
    praises = scrapy.Field()
    #
    books = scrapy.Field()
    # 关注了
    follow = scrapy.Field()
    # 关注者
    followers = scrapy.Field()
    goods = scrapy.Field()
    editer = scrapy.Field()
    reads = scrapy.Field()
    collections = scrapy.Field()
    tags = scrapy.Field()
Python

最低0.47元/天解锁文章

追梦IT男

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Python】掘金网全站用户爬虫 scrapy

获取全站用户，理论来说从1个用户作为切入点就可以，我们需要爬取用户的关注列表，从关注列表不断的叠加下去。随便打开一个用户的个人中心绿色圆圈里面的都是我们想要采集到的信息。这个用户关注0人？那么你还需要继续找一个入口，这个用户一定要关注了别人。选择关注列表，是为了让数据有价值，因为关注者里面可能大量的小号或者不活跃的账号，价值不大。我选了这样一个入口页面，它关注了3个人，你也可以选择多一些的...
复制链接

扫一扫