首先在head中可以看到,该网页的编码为utf-8.
目标内容位于一个名为dd_bt的div标签中。
from bs4 import BeautifulSoup
import requests
url = 'http://www.chinanews.com/scroll-news/news1.html'
html = requests.get(url)
# 解决中文乱码问题 此网页用的是utf-8
html.encoding = 'utf-8'
soup = BeautifulSoup(html.text, 'html5lib')
# name: 标签种类名称 class:标签属性名
res_li = soup.find_all(name='div', attrs={"class", "dd_bt"})
res = []
for temp in soup.find_all('a'):
# 把前面的小标签筛调
if len(str(temp.string)) > 2:
res.append(str(temp.string))
print(res)