Python爬虫——简书首页文章信息

最新推荐文章于 2024-05-03 11:07:56 发布

小徐老师_xiho

最新推荐文章于 2024-05-03 11:07:56 发布

阅读量436

点赞数

分类专栏： python应用文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43286898/article/details/105628863

版权

python应用专栏收录该内容

4 篇文章 0 订阅

订阅专栏

运用Python对简书首要进行简书首页的文章信息进行爬取。具体包括：文章标题、文章id、用户昵称、用户id、总浏览量、评论数、点赞数、赞赏量。以及文章插图和用户头像的下载。并对以上数据进行excel的存储，首先进行文件是否存在的判断，不存在，则创建。再比较pandas包方法存储和xlwt方法。
在这里插入图片描述

网页分析

首先对简书首页网页进行分析。在查看网页源代码中按下ctrl+F键搜索“做人，不要自作多情，生活中真的没有人在乎你”，结果发现能从网页源代码中找到。

再对原始网页点击阅读更多，同样在网页源代码中搜索阅读更多中的任意一篇文章，结果在网页源代码中没有找到。且网页url没有变化。可以判断此网页用了异步加载技术(Ajax)。在这里插入图片描述

再在网页右击选择检查——network——xhr。刷新网页可以发现再点击展开更多文章，可以发现

在这里插入图片描述
打开url可以发现出现的正是我们需要的数据。

于是对url进行了修改，url=https://www.jianshu.com/asimov/trending/now?count=15&note_ids=9。也出现了数据。最终可以获得url为https://www.jianshu.com/asimov/trending/now?count=15&note_ids= +一个数字。

爬取数据

由上述分析获得了网页url，返回的为json文件。如下。
在这里插入图片描述具体爬取代码如下：

导入工具包，os包用来查看文件夹是否存在。xlwt和pandas用来存储到excel，time用来计时。
添加请求头
定义网页爬取函数
定义图片下载函数
主函数+数据保存
结果

在这里插入图片描述显然xlwt写入excel要快。
初次分享，还有很多不完整的地方，还望多多指正。

小徐老师_xiho

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
Python爬虫——简书首页文章信息

运用Python对简书首要进行简书首页的文章信息进行爬取。具体包括：文章标题、文章id、用户昵称、用户id、总浏览量、评论数、点赞数、赞赏量。以及文章插图和用户头像的下载。并对以上数据进行excel的存储，首先进行文件是否存在的判断，不存在，则创建。再比较pandas包方法存储和xlwt方法。网页分析首先对简书首页网页进行分析。在查看网页源代码中按下ctrl+F键搜索“做人，不要自作多情，生...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小徐老师_xiho 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。