python 赚钱知乎_爬虫实战：抓取知乎问题 “大学生如何赚到一万元”

最新推荐文章于 2021-09-28 07:49:01 发布

weixin_39948309

最新推荐文章于 2021-09-28 07:49:01 发布

阅读量140

点赞数

文章标签： python 赚钱知乎

最近对赚钱的话题很感兴趣，在知乎上关注了很多“赚钱”相关的问题，高质量的有不少，但是夹杂着私货的也不少。不过知乎的数据比较全，我们完全可以用来做文本分析。

爬虫的原理我就不细讲了，如果大家对爬虫的原理和相关库不甚了解，又想快速入门，不妨看看我们这门课。

待爬网址

问题：如何在大学赚到一万元？

大学里面学费加一年开销最少就是10000元，所以如何赚到10000 链接 https://www.zhihu.com/question/34011097

分析请求

因为我们知道知乎的响应数据都是 json 型网站，所以我们想找到json对应的链接规律。F12键打开开发者工具，选中XHR,不停地往下滑动页面，开发者工具Network会不停的闪过很多链接。

经过排查我们发现这个链接很特殊，点击进去详情如下

对应的数据是json格式

里面果然是用户的回答数据

现在我们将找到的网址复制下来分析分析

我们发现网址中有 34011097 和 offset 两个参数是可以调整的，分别代表话题id 和回答的id 。我们将上面的网址整理一下，设计成网址模板base_url

伪装请求

我们还要注意的一点是写爬虫一般是需要伪装请求头headers，而在知乎这种网站，我们可能还需要cookies。我新建了一个 settings.py 文件，用来存放cookies、headers、网址模板base url和question id

数据存储

接下来我们新建 zhihu.py 用于设计爬虫逻辑，因为知乎的数据都是json格式，相对于 html 而言json的数据更有层次性更加的干净。为了保证后续数据分析的可扩展性，我们尽量保存原始。所以这里用到了jsonlines库用于存储json数据(以行的方式存储每个json)，如果不熟悉可以把 jsonlines库：高效率的保存多个python 对象这篇文章收藏起来。

知乎爬虫代码

在 zhihu.py 文件中

程序运行

读取抓取json数据

这里使用jsonlines库，该库以行的方式读取，得到的是可迭代对象。如果不熟悉可以把 jsonlines库：高效率的保存多个python对象这篇文章收藏起来。将其转化为dataframe类型，这样我们就可以用pandas库进行读取

两小时视频课程

精选文章

后台回复 20190228 ，得本教程项目代码。

原创不易，如果觉得内容不错，记得AD、转发、好看

weixin_39948309

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 赚钱知乎_爬虫实战：抓取知乎问题 “大学生如何赚到一万元”

最近对赚钱的话题很感兴趣，在知乎上关注了很多“赚钱”相关的问题，高质量的有不少，但是夹杂着私货的也不少。不过知乎的数据比较全，我们完全可以用来做文本分析。爬虫的原理我就不细讲了，如果大家对爬虫的原理和相关库不甚了解，又想快速入门，不妨看看我们这门课。待爬网址问题：如何在大学赚到一万元？大学里面学费加一年开销最少就是10000元，所以如何赚到10000 链接 https://www.zhihu.co...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。