html = requests.get(url,headers=headers).text
print(html)
然后,我们再从HTML里面找出我们想要的
可以看爬下来的数据也可以使用谷歌浏览器的F12
这里已谷歌的F12为例
可以发现,div标签中
-
class为’result c-container '的为非百度,非广告的内容(我们需要的内容)
-
class为’result-op c-container xpath-log’的为百度自家的内容(可以按需筛选)
-
class为其它的都为广告
首先定义筛选
soup = BeautifulSoup(html, ‘html.parser’)
使用for循环找出所有div标签,且class为’result c-contain