- 获取网页源代码
def get_html(html_url):
“”"
获取网页源代码 response
:param html_url: 网页url地址
:return: 网页源代码
“”"
response = requests.get(url=html_url, headers=headers)
return response
- 获取每篇新闻url地址
def get_page_url(html_data):
“”"
获取每篇新闻url地址
:param html_data: response.text
:return: 每篇新闻的url地址
“”"
page_url_list = re.findall(‘“url”:“(.*?)”’, html_data)
return page_url_list
- 文件保存命名不能含有特殊字符,需要对新闻标题进行处理
def file_name(name):
“”"
文件命名不能携带 特殊字符
:param name: 新闻标题
:return: 无特殊字符的标题
“”"
replace = re.compile(r’[\/😗?"<>|]')
new_name = re.sub(replace, ‘_’, name)
return new_name
- 保存数据
def download(content, title):