今天就爬取新闻网中的国际新闻栏目
点击显示更多新闻内容
可以看到相关的数据接口,里面有新闻标题以及新闻详情的url地址
如何提取url地址
1、转成json,键值对取值;
2、用正则表达式匹配url地址;
两种方法都可以实现,看个人喜好
根据接口数据链接中的pager 变化进行翻页,其对应的就是页码。
详情页可以看到新闻内容都是在 div标签里面 p 标签内,按照正常的解析网站即可获取新闻内容。
保存方式
1、你可以保存txt文本形式
2、也可以保存成PDF形式
之前也讲过关于爬取文章内容保存成 PDF ,可以点击下方链接查看相关保存方式。
本篇文章的话,就使用保存txt文本的形式吧。
-
在栏目列表页中,点击更多新闻内容,获取接口数据url
-
接口数据url中返回的数据内容中匹配新闻详情页url
-
使用常规解析网站操作(re、css、xpath)提取新闻内容
-
保存数据
- 获取网页源代码
def get_html(html_url):
“”"
获取网页源代码 response
:param html_url: 网页url地址
:return: 网页源代码
“”"
response = requests.get(url=html_url, headers=headers)
return response
- 获取每篇新闻url地址
def get_page_url(html_data):
“”"
获取每篇新闻url地址
:param html_data: response.text
:return: 每篇新闻的url地址
“”"
page_url_list = re.findall(‘“url”:“(.*?)”’, html_data)
return page_url_list
- 文件保存命名不能含有特殊字符,需要对新闻标题进行处理
def file_name(name):
现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。
分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习
小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注:python)
自学提升又不知道该从何学起的朋友,同时减轻大家的负担。**
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注:python)
[外链图片转存中…(img-ECWOWP6X-1711065995470)]