Crawler
taolusi
联系方式:taolusi@163.com,一般不太看评论,欢迎来信交流。
展开
-
BeautifulSoup通过lxml解析页面造成信息丢失的解决方法
在爬新浪财经的股吧评论的时候,使用第三方解析器lxml时出现了信息丢失的问题:1 bsObj = BeautifulSoup(page, "lxml")通过search,发现是通过lxml来解析页面时出现的问题。因此换用另一个解析器:html5lib,此解析器速度较慢,但容错性最好。1 bsObj = BeautifulSoup(page, "html5lib")关于各种解析器...原创 2018-07-07 22:21:00 · 1706 阅读 · 0 评论 -
Python爬取javascript(js)动态网页
转自:自由爸爸,iceblue iceblue,王阳阳详细内容请参考:Selenium-Python中文文档python有许多库可以让我们很方便地编写网络爬虫,爬取某些页面,获得有价值的信息!但许多时候,爬虫取到的页面仅仅是一个静态的页面,即网页 的源代码,就像在浏览器上的“查看网页源代码”一样。一些动态的东西如javascript脚本执行后所产生的信息,是抓取不到的,这里暂且先给出这么一...转载 2018-07-09 10:30:00 · 7003 阅读 · 0 评论