在爬取页面数据的转成HTML格式
数据时,
该网页上总是有广告
,营销
等不友好数据信息,
因此利用BS4解析HTML
的能力来筛选
想要的数据信息
,
去除不友好
的数据信息。
通过BS4
常用的选取方式来选取不需要的,无关的信息,
在利用BS4的extract()
函数来去除
信息。
def del_html_something(url):
"""
:param url:你想给予的URL链接
:return: 返回去除不友好信息后的页面数据
"""
soup = get_html_decode