Scrapy 爬取知乎用户信息

*

摘要

在日常生活,知乎账号的关注度是我们非常关系的事情,这可以让我们了解到自己发布的文章的影响力,为此,收集知乎粉丝用户的信息显得非常的必要。为了收集粉丝的详细信息,所以用python语言编写爬虫程序抓取粉丝用户的信息汇总,抓取关注的人的信息,然后存储到数据库。利用的爬虫程序抓取的粉丝用户信息和关注的人的用户信息的同时,用递归算法抓取用户的用户信息,方便快捷的抓取大量用户的信息。

关键字:python,爬虫,知乎用户。  

*

Abstract

In our daily life, the attention of Zhihu account is a matter of great concern to us, which can let us know the influence of the articles published by ourselves. Therefore, it is very necessary to collect the information of Zhihu fans. In order to collect the detailed information of fans, we use Python language to write a crawler to capture the information of fan users, capture the information of the people concerned, and then store it in the database. At the same time, it uses recursive algorithm to capture the user information of the user, which can capture a large number of user information conveniently and quickly.

**Keywords**: Python, crawler, Zhihu user.

*

目录

摘要 2
Abstract 3
1. 引言 5
1.1. 研究背景 5
1.2. 爬虫研究意义 5
1.3. 研究的内容 5
2. 系统结构 5
2.1. 开发准备 5
2.2. 爬虫项目应用的技术 6
2.3. 系统实现思路 7
3. 实现代码 10
3.1. 爬取用户详细信息 10
3.2. 爬取用户关注人列表 13
3.3. 爬取用户粉丝列表 14
3.4. 爬取用户信息存储至mongoDB数据库 15
4. 结果展示 17
4.1. 爬虫项目运行结果展示 17
4.2. 爬取知乎用户信息结果展示 17
5. 总结和展望 18
5.1. 项目设计总结 18
5.2. 未来展望 19
参考文献 19

1. 引言
1.1. 研究背景
  随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。为了解决这个问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。而对于各个平台的用户都有自己的粉丝和关注的人,,如何大量获取这些用户的信息并做整理,如何对自己的粉丝和关注的人做出统计和分析,是我们面临的一大难题。

1.2. 爬虫研究意义
  面对大量数据从网页获取和统计的难题,爬虫程序的编写将会给我们的获取、归类、统计带来了很大便利。就本次研究的课题,如何利用python语言编程的爬虫程序抓取知乎用户信息的研究,对于想分析自己发布文章的影响力,统计分析粉丝的数量和类型有重大的意义,为于作知乎影响力的数据分析节省了大量的统计工作和统计成本。本次的研究旨在对爬虫技术的分析,如何分析对应的网页信息,如何爬取重要的网页信息,对以后爬取同一类或者其他类别的网页信息,有启发性的作用。

1.3. 研究的内容

本次的研究的内容是分析网页的数据请求和数据的返回的获取,能够分析请求的特点,能够利用Scrapy框架编写爬虫程序,从知乎的主页获取用户信息的同时,获取用户的粉丝用户信息,获取用户关注的人的信息。实现获取信息的保存。

2. 系统结构
2.1. 开发准备

  此次爬取知乎用户信息的爬虫项目的设计是利用python语言编写的爬虫程序,同时需要存储爬取的信息,故需安装以下软件资源。

**操作系统**:windows10操作系统。 **其他软件**:Python3,爬虫异步框架Scrapy,爬虫开发工具PyCharm,存储数据的MongoDB数据库,数据库管理软件NoSQL Manager for MongoDB。

  选用以上的软件来开发爬虫项目的设计,是因为这样有很多显著的优势,选用的软件的理由如下图2-1所示。

在这里插入图片描述
*

图2-1,爬虫项目开发所需软件

2.2. 爬虫项目应用的技术
  

  1、 Python程序设计语言,是基本爬虫程序编写语言,Python程序设计语言,不仅功能强大,而且易学易用,

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值