使用python,爬取网页评论

使用python,爬取网页评论(实例:豆瓣《都挺好》)

python的第三方库丰富了python的功能,今天就用python的第三方库requests和bs4这两个库来实现对一个网页的爬取

操作环境

python3.7.2
requests库
bs4库

requests库和bs4库下载

如果你的电脑只用python3的版本使用以下方式下载:

pip install requests
pip install bs4

如果你的电脑中python3和python2的版本都存在:

python3 -m pip install
python2 -m pip install

这一步是最基本的,如果没有安装成功请先自行百度解决。

目标网站:

https://book.douban.com/subject/20492971/comments/hot

先查看网络源代码,观察网页源代码的结构和我们要爬取的内容,这次我们要爬取的是用户名、用户评论、有用数,评论的星数和日期。
通过观察我们发现我们所需的内容主要出现在这一部分:

<span class="comment-info">
                    <a href="https://www.douban.com/people/sophiagracewei/">Sofia</a>
                        <span class="user-stars allstar40 rating" title="推荐"></span>
                    <span>2013-06-30</span>
                </span>
            </h3>
            <p class="comment-content">
            
                <span class="short">《都挺好》=《回家》。强势母亲带来的家庭矛盾:
                懦弱的儿子+强势的女儿。
                纵容的宠爱是一种慢性毒药,慢慢侵蚀人的奋斗、拼搏精神和生存能力。
                “穷养”的女儿被逼着成长,凌厉干练,
                却失去了爱的能力——无论是爱人还是爱己。父母之爱要的就是一个平衡的点。</span>

所以下一步就是如何将其爬取出来

爬取过程
  • 7
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值