我的问题和这里问的问题类似:
https://stackoverflow.com/questions/14599485/news-website-comment-analysis
我试图从任何新闻文章中摘录评论。E、 g.我有一个新闻网址:
http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/
我尝试在python中使用BeautifulSoup来提取注释。然而,注释部分似乎要么嵌入到iframe中,要么通过javascript加载。通过firebug查看源代码不会显示评论部分的源代码。但是通过浏览器的“查看源代码”功能显式地查看注释的源代码是正确的。如何提取评论,尤其是当评论来自新闻网页中嵌入的不同url时?在
这是我到现在为止所做的,虽然不多:import urllib2
from bs4 import BeautifulSoup
opener = urllib2.build_opener()
url = ('http://www.cnn.com/2013/08/28/health/stem-cell-brain/index.html')
urlContent = opener.open(url).read()
soup = BeautifulSoup(urlContent)
title = soup.title.text
print title
body = soup.findAll('body')
outfile = open("brain.txt","w+")
for i in body:
i=i.text.encode('ascii','ignore')
outfile.write(i +'\n')
如果您能帮我做些什么或如何去做,我们将不胜感激。在