之前也讲过关于爬取文章内容保存成 PDF ,可以点击下方链接查看相关保存方式。
本篇文章的话,就使用保存txt文本的形式吧。
-
在栏目列表页中,点击更多新闻内容,获取接口数据url
-
接口数据url中返回的数据内容中匹配新闻详情页url
-
使用常规解析网站操作(re、css、xpath)提取新闻内容
-
保存数据
- 获取网页源代码
def get_html(html_url):
“”"
获取网页源代码 response
:param html_url: 网页url地址
:return: 网页源代码
“”"
response = requests.get(url=html_url, headers=headers)
return response
- 获取每篇新闻url地址
def get_page_url(html_data):
“”"
获取每篇新闻url地址
:param html_data: response.text
:return: 每篇新闻的url地址
“”"
page_url_list &