相关文件
关注小编,私信小编领取哟!
当然别忘了一件三连哟~~
对了大家可以关注小编的公众号哟~~
Python日志
开发环境
Python版本:3.6.4
相关模块:
requests模块;
pyqt5模块;
以及一些python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
原理介绍
首先,找个钓段子的问题,例如:
https://www.zhihu.com/question/64745252/answer/1870194928
就是这种:
获取知乎的回答只需要请求这个接口就行了:
https://www.zhihu.com/node/QuestionAnswerListV2
需要携带的参数也不复杂:
data = {
'method': 'next',
'params': '{"url_token":%s,"page_size":%s,"offset":%s}' % (question_id, size, offset)
}
所以我们很快就可以完成一个数据爬取的小脚本了(这是最最最基础的爬虫代码,所以我就不一点点地去讲解啦):
'''知乎段子'''
class zhihuJokesSpider():
def __init__(self, question_id, **kwargs):
self.question_id = question_id
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36',
'Accept-Encoding': 'gzip, deflate'
}
self.api_url = 'https://www.zhihu.com/node/QuestionAnswerListV2'
self.session = requests.Session()
self.pointer = 0
self.limits = 2000
'''开始运行'''
def