在爬新浪财经的股吧评论的时候,使用第三方解析器lxml时出现了信息丢失的问题:
1 bsObj = BeautifulSoup(page, "lxml")
通过search,发现是通过lxml来解析页面时出现的问题。因此换用另一个解析器:html5lib,此解析器速度较慢,但容错性最好。
1 bsObj = BeautifulSoup(page, "html5lib")
关于各种解析器的介绍可以看一下Beautiful Soup的中文文档
在爬新浪财经的股吧评论的时候,使用第三方解析器lxml时出现了信息丢失的问题:
1 bsObj = BeautifulSoup(page, "lxml")
通过search,发现是通过lxml来解析页面时出现的问题。因此换用另一个解析器:html5lib,此解析器速度较慢,但容错性最好。
1 bsObj = BeautifulSoup(page, "html5lib")
关于各种解析器的介绍可以看一下Beautiful Soup的中文文档