python爬虫:利用requests与json来爬取金十快讯时间与内容(对JavaScript格式数据处理转换成json格式数据)

***第一次写文章,希望通过这种方式促进自己对错误的印象与理解。(如有错误之处望斧正。)

本文利用requests与json来爬取金十上的快讯的相关信息
并且保存到本地中

对应网站URL:https://www.jin10.com/

1. 通过浏览器的F12来解析网页数据,并从中提取需要的JSON数据;
在这里插入图片描述

在这里插入图片描述
按F5加载啦(因为是小白=.=,使用刚开始的时候搞了不少乌龙,想着:“诶?怎么我的没显示数据勒?”)
在这里插入图片描述
然后找到JS数据的板块,会发现我们所需要的快讯的内容就保存在了“flash_newest.js”上,点击后是这样子的
在这里插入图片描述
因为我们目的是提出json数据,使用为了更加直观的看到数据结构,我们可以(1). 百度搜索JSON解析器,复制对应的url到上面就可以解析啦;**(注意:这里的url是flash_json.js的Headers里的url哦)(2).下载插件

2. 但是这个案例注意的是:就是我们提出的数据是JavaScript格式的数据

在这里插入图片描述
所以我们要清楚,我们提取到的数据不是json格式的数据,而是JavaScript格式的,所以我们要在python上对所提取回来的数据进行必要处理,使它装换成json格式的数据:
(1).先让我们看看提出到的JavaScript格式数据
在这里插入图片描述
在这里插入图片描述
(2).然后去头去尾转换成json数据

去头:
在这里插入图片描述
去尾:
在这里插入图片描述
即是尾部多出的“
我这里是使用python对字符串的截取来处理
在这里插入图片描述
然后得到的就是我们需要的json格式数据了。
(可以先了解一下json数据格式的数据哦!)

3.接下来就是对取得的json格式数据进行处理来的到我们所需要的内容了
(1).首先先了解我们所需要的数据存储在哪里
在这里插入图片描述
我们可以看到“快讯内容”和“快讯时间”分别保存在了“content”和“time”上
(2).提出内容
在这里插入图片描述
这样子我们就可以获得快讯的内容和时间,并且保存到了变量当中啦!
4. 然后就是保存到本地当中了
在这里插入图片描述
就保存到本地当中了
不仅仅是爬取这里哦,小伙伴们还可以去爬取豆瓣上的电影呀,相片等,大伙们是不是饥渴难耐了?哈哈哈,很开心可以记录自己的学习,错误之处,忘大伙斧正。

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

就是莫世冰。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值