使用python,爬取网页评论(实例:豆瓣《都挺好》)
python的第三方库丰富了python的功能,今天就用python的第三方库requests和bs4这两个库来实现对一个网页的爬取
操作环境
python3.7.2
requests库
bs4库
requests库和bs4库下载
如果你的电脑只用python3的版本使用以下方式下载:
pip install requests
pip install bs4
如果你的电脑中python3和python2的版本都存在:
python3 -m pip install
python2 -m pip install
这一步是最基本的,如果没有安装成功请先自行百度解决。
目标网站:
https://book.douban.com/subject/20492971/comments/hot
先查看网络源代码,观察网页源代码的结构和我们要爬取的内容,这次我们要爬取的是用户名、用户评论、有用数,评论的星数和日期。
通过观察我们发现我们所需的内容主要出现在这一部分:
<span class="comment-info">
<a href="https://www.douban.com/people/sophiagracewei/">Sofia</a>
<span class="user-stars allstar40 rating" title="推荐"></span>
<span>2013-06-30</span>
</span>
</h3>
<p class="comment-content">
<span class="short">《都挺好》=《回家》。强势母亲带来的家庭矛盾:
懦弱的儿子+强势的女儿。
纵容的宠爱是一种慢性毒药,慢慢侵蚀人的奋斗、拼搏精神和生存能力。
“穷养”的女儿被逼着成长,凌厉干练,
却失去了爱的能力——无论是爱人还是爱己。父母之爱要的就是一个平衡的点。</span>
所以下一步就是如何将其爬取出来