python爬虫：利用requests与json来爬取金十快讯时间与内容（对JavaScript格式数据处理转换成json格式数据）

最新推荐文章于 2025-01-07 21:40:36 发布

就是莫世冰。

最新推荐文章于 2025-01-07 21:40:36 发布

阅读量1.8k

点赞数 7

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/jiushiabingbing/article/details/105688857

版权

python爬虫专栏收录该内容

1 篇文章

订阅专栏

本文介绍如何使用requests与json库从金十数据网站爬取快讯信息并保存至本地的方法。作者分享了从网页中提取JSON数据的过程，包括使用F12工具定位数据源、处理JavaScript格式数据使其转化为JSON格式，以及解析和存储快讯内容和时间的具体步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

***第一次写文章，希望通过这种方式促进自己对错误的印象与理解。（如有错误之处望斧正。）

本文利用requests与json来爬取金十上的快讯的相关信息
并且保存到本地中

对应网站URL：https://www.jin10.com/

1. 通过浏览器的F12来解析网页数据，并从中提取需要的JSON数据；
在这里插入图片描述

按F5加载啦（因为是小白=.=，使用刚开始的时候搞了不少乌龙，想着：“诶？怎么我的没显示数据勒？”）

然后找到JS数据的板块，会发现我们所需要的快讯的内容就保存在了“flash_newest.js”上，点击后是这样子的
在这里插入图片描述
因为我们目的是提出json数据，使用为了更加直观的看到数据结构，我们可以（1）. 百度搜索JSON解析器，复制对应的url到上面就可以解析啦；**（注意：这里的url是flash_json.js的Headers里的url哦）（2）.下载插件

2. 但是这个案例注意的是：就是我们提出的数据是JavaScript格式的数据

在这里插入图片描述
所以我们要清楚，我们提取到的数据不是json格式的数据，而是JavaScript格式的，所以我们要在python上对所提取回来的数据进行必要处理，使它装换成json格式的数据：
(1).先让我们看看提出到的JavaScript格式数据
在这里插入图片描述

（2）.然后去头去尾转换成json数据

去头：
在这里插入图片描述
去尾：

即是尾部多出的“；”
我这里是使用python对字符串的截取来处理

然后得到的就是我们需要的json格式数据了。
（可以先了解一下json数据格式的数据哦！）

3.接下来就是对取得的json格式数据进行处理来的到我们所需要的内容了
（1）.首先先了解我们所需要的数据存储在哪里
在这里插入图片描述
我们可以看到“快讯内容”和“快讯时间”分别保存在了“content”和“time”上
（2）.提出内容

这样子我们就可以获得快讯的内容和时间，并且保存到了变量当中啦！
4. 然后就是保存到本地当中了
在这里插入图片描述
就保存到本地当中了
不仅仅是爬取这里哦，小伙伴们还可以去爬取豆瓣上的电影呀，相片等，大伙们是不是饥渴难耐了？哈哈哈，很开心可以记录自己的学习，错误之处，忘大伙斧正。