python爬虫反爬 css 知乎 专栏_python爬虫如何采集知乎信息汇总?

在没有学习python之前,对于数据的提取只局限于复制、粘贴之后的保存,一步步的人工操作还是很慢的。现在的小编已经能够写代码去从网页上获取自己想要的内容了,学习成果方面还是有显著的变化。不知道小伙伴们是不是都会呢?本篇小编就以知乎的数据采集为例,让大家也练练手。

打开知乎首页-->登陆-->搜索到一个大V,用谷歌浏览器分析点击关注了哪些人后的请求,通过分析:查找他关注的人的请求链接:

https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data[

通过观察尝试分析后可知:offset=40是偏移量,通过改变这个值可以实现分页的效果。

知乎是做了反爬虫的措施的,所以我们要想爬取知乎信息,还必须要设置请求头,下面我们来分析请求头:

图片中红箭头所指就是请求必须需要的值,

authorization:是身份认证信息,每个用户登录后都会产生各自的身份认证信息。

User-Agent:是验证请求是来自正常的浏览器访问

最终代码如下:import requests

import pandas as pd

import time

headers={

'authorization':'',#此处填写你自己的身份验证信息

'User-Agent':''#此处填写你自己浏览器的User-Agent

}

user_data = []

def get_user_data(page):

for i in range(page):#翻页

url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset={}&limit=20'.format(i*20)

response = requests.get(url, headers=headers).json()['data']

user_data.extend(response) #把response数据添加进user_data

print('正在爬取第%s页' % str(i 1))

time.sleep(1) #设置爬取网页的时间间隔为1秒

if __name__ == '__main__':

get_user_data(10)

df = pd.DataFrame.from_dict(user_data)#以字典保存数据

df.to_csv('zhihu.csv',encoding='utf_8_sig')#保存到用户名为zhihu的csv文件中,encoding='utf_8_sig'参数是为了解决中文乱码的问题

print(df)

运行代码后,我们就可以看到收集的一堆用户信息的汇总了,当然其中不乏一些小伙伴们崇拜的python大神公开的信息哦~更多Python学习推荐:JQ教程网Python大全。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值