python新闻评论分析_从新闻文章中提取评论

最新推荐文章于 2023-03-11 17:23:51 发布

一个小代码

最新推荐文章于 2023-03-11 17:23:51 发布

阅读量233

点赞数

文章标签： python新闻评论分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36019543/article/details/114437935

版权

我的问题和这里问的问题类似：

https://stackoverflow.com/questions/14599485/news-website-comment-analysis

我试图从任何新闻文章中摘录评论。E、 g.我有一个新闻网址：

http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/

我尝试在python中使用BeautifulSoup来提取注释。然而，注释部分似乎要么嵌入到iframe中，要么通过javascript加载。通过firebug查看源代码不会显示评论部分的源代码。但是通过浏览器的“查看源代码”功能显式地查看注释的源代码是正确的。如何提取评论，尤其是当评论来自新闻网页中嵌入的不同url时？在

这是我到现在为止所做的，虽然不多：import urllib2

from bs4 import BeautifulSoup

opener = urllib2.build_opener()

url = ('http://www.cnn.com/2013/08/28/health/stem-cell-brain/index.html')

urlContent = opener.open(url).read()

soup = BeautifulSoup(urlContent)

title = soup.title.text

print title

body = soup.findAll('body')

outfile = open("brain.txt","w+")

for i in body:

i=i.text.encode('ascii','ignore')

outfile.write(i +'\n')

如果您能帮我做些什么或如何去做，我们将不胜感激。在

一个小代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python新闻评论分析_从新闻文章中提取评论

我的问题和这里问的问题类似：https://stackoverflow.com/questions/14599485/news-website-comment-analysis我试图从任何新闻文章中摘录评论。E、 g.我有一个新闻网址：http://www.cnn.com/2013/09/24/politics/un-obama-foreign-policy/我尝试在python中使用Beauti...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。