Python爬虫——简书首页文章信息

运用Python对简书首要进行简书首页的文章信息进行爬取。具体包括:文章标题、文章id、用户昵称、用户id、总浏览量、评论数、点赞数、赞赏量。以及文章插图和用户头像的下载。并对以上数据进行excel的存储,首先进行文件是否存在的判断,不存在,则创建。再比较pandas包方法存储和xlwt方法。
在这里插入图片描述

网页分析

首先对简书首页网页进行分析。在查看网页源代码中按下ctrl+F键搜索“做人,不要自作多情,生活中真的没有人在乎你”,结果发现能从网页源代码中找到。
做人,不要自作多情,生活中真的没有人在乎你
再对原始网页点击阅读更多,同样在网页源代码中搜索阅读更多中的任意一篇文章,结果在网页源代码中没有找到。且网页url没有变化。可以判断此网页用了异步加载技术(Ajax)。在这里插入图片描述
在这里插入图片描述
再在网页右击选择检查——network——xhr。刷新网页可以发现在这里插入图片描述再点击展开更多文章,可以发现

在这里插入图片描述
在这里插入图片描述在这里插入图片描述打开url可以发现出现的正是我们需要的数据。
在这里插入图片描述
于是对url进行了修改,url=https://www.jianshu.com/asimov/trending/now?count=15&note_ids=9。也出现了数据。最终可以获得url为https://www.jianshu.com/asimov/trending/now?count=15&note_ids= +一个数字。

爬取数据

由上述分析获得了网页url,返回的为json文件。如下。
在这里插入图片描述具体爬取代码如下:

  1. 导入工具包,os包用来查看文件夹是否存在。xlwt和pandas用来存储到excel,time用来计时。
    在这里插入图片描述

  2. 添加请求头
    在这里插入图片描述

  3. 定义网页爬取函数
    在这里插入图片描述

  4. 定义图片下载函数
    在这里插入图片描述

  5. 主函数+数据保存
    在这里插入图片描述在这里插入图片描述

  6. 结果

在这里插入图片描述显然xlwt写入excel要快。
在这里插入图片描述在这里插入图片描述初次分享,还有很多不完整的地方,还望多多指正。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小徐老师_xiho

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值