![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
mamba10
- -.
展开
-
python scrapy 登录知乎过程
前面了解了scrapy框架的大概各个组件的作用,现在要爬取知乎数据,那么第一步就是要登录!看下知乎的登录页面发现登录主要是两大接口一: 登录页面地址,获取登录需要的验证码,如下图打开知乎登录页面,需要输入用户名和密码, 还有一个验证码,看chrome 调试工具发现验证码是这个地址返回的: https://www.zhihu.com/api/v3/oauth/captcha?la...原创 2018-09-10 15:32:23 · 464 阅读 · 0 评论 -
python scrapy框架爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法.这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中.首先,看一下我要爬取哪些内容:如下图所示,我要爬取一个问题的6个信息:问题的id(question_id) 标题(title) 问题描述(intro) 回答个数(answer_num) 关注人数(attention_uv) 浏览次数(read_pv) ...原创 2018-09-13 10:22:38 · 499 阅读 · 0 评论 -
python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同.爬取一个问题的所有内容流程大致如下:一个问题url 请求url,获取问题下的答案个数(我不需要,因为之前获取问题信息的时候保存了问题的回答个数) 通过答案的接口去获取答案(如果一次获取5个答案,总计100个答案,需要计算的出访问20次答案接口)[答案的接口地址如下图所示] ...原创 2018-09-13 10:25:41 · 1431 阅读 · 4 评论