python爬虫反爬 css 知乎专栏_python爬虫如何采集知乎信息汇总？

最新推荐文章于 2022-07-01 11:22:30 发布

weixin_39631094

最新推荐文章于 2022-07-01 11:22:30 发布

阅读量93

点赞数

文章标签： python爬虫反爬 css 知乎专栏

在没有学习python之前，对于数据的提取只局限于复制、粘贴之后的保存，一步步的人工操作还是很慢的。现在的小编已经能够写代码去从网页上获取自己想要的内容了，学习成果方面还是有显著的变化。不知道小伙伴们是不是都会呢？本篇小编就以知乎的数据采集为例，让大家也练练手。

打开知乎首页-->登陆-->搜索到一个大V，用谷歌浏览器分析点击关注了哪些人后的请求，通过分析：查找他关注的人的请求链接：

https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data[

通过观察尝试分析后可知：offset=40是偏移量，通过改变这个值可以实现分页的效果。

知乎是做了反爬虫的措施的，所以我们要想爬取知乎信息，还必须要设置请求头，下面我们来分析请求头：

图片中红箭头所指就是请求必须需要的值，

authorization：是身份认证信息，每个用户登录后都会产生各自的身份认证信息。

User-Agent：是验证请求是来自正常的浏览器访问

最终代码如下：import requests

import pandas as pd

import time

headers={

'authorization':'',#此处填写你自己的身份验证信息

'User-Agent':''#此处填写你自己浏览器的User-Agent

}

user_data = []

def get_user_data(page):

for i in range(page):#翻页

url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset={}&limit=20'.format(i*20)

response = requests.get(url, headers=headers).json()['data']

user_data.extend(response) #把response数据添加进user_data

print('正在爬取第%s页' % str(i 1))

time.sleep(1) #设置爬取网页的时间间隔为1秒

if __name__ == '__main__':

get_user_data(10)

df = pd.DataFrame.from_dict(user_data)#以字典保存数据

df.to_csv('zhihu.csv',encoding='utf_8_sig')#保存到用户名为zhihu的csv文件中，encoding='utf_8_sig'参数是为了解决中文乱码的问题

print(df)

运行代码后，我们就可以看到收集的一堆用户信息的汇总了，当然其中不乏一些小伙伴们崇拜的python大神公开的信息哦~更多Python学习推荐:JQ教程网Python大全。

weixin_39631094

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫反爬 css 知乎专栏_python爬虫如何采集知乎信息汇总？

在没有学习python之前，对于数据的提取只局限于复制、粘贴之后的保存，一步步的人工操作还是很慢的。现在的小编已经能够写代码去从网页上获取自己想要的内容了，学习成果方面还是有显著的变化。不知道小伙伴们是不是都会呢？本篇小编就以知乎的数据采集为例，让大家也练练手。打开知乎首页-->登陆-->搜索到一个大V，用谷歌浏览器分析点击关注了哪些人后的请求，通过分析：查找他关注的人的请求链接：ht...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。