在爬虫爬取网页的时候只爬取到部分内容,后来查到原因是因为爬取的html文件是不规范的html,导致不同的html parser的分析结果不一样。
把原来的
soup = BeautifulSoup(wb_data, 'lxml')
替换成
soup = BeautifulSoup(wb_data, 'html.parser')
就可以正常读取内容了。
通常 BeautifulSoup 的 html parser 有以下几种:
- lxml
- html.parser
- lxml-xml
- xml
- html5lib