网易新闻评论爬虫(python+selenium+PhantomJS)
警示:请勿转载内容
网易新闻评论爬虫设计
废话不多说,我们要爬取这样一个网易的新闻评论页面,页面URL如下:url = "http://comment.news.163.com/news3_bbs/APLP5TVS00014JB6.html" 这是动态网页,下载网页源代码后是无法直接解析出内容的,我们需要用浏览器内核去解析源代码,直接得到正文。这是一种偷懒的技术,但是可以帮助我们快速获取数据。当然这种方
原创
2015-06-29 20:31:32 ·
2992 阅读 ·
2 评论