使用python，爬取网页评论

最新推荐文章于 2024-04-27 16:08:33 发布

飞鱼锦衣

最新推荐文章于 2024-04-27 16:08:33 发布

阅读量1.4w

点赞数 7

分类专栏：学习文章标签： python 爬虫

本文链接：https://blog.csdn.net/csdn_1232/article/details/90114339

版权

使用python，爬取网页评论（实例：豆瓣《都挺好》）

python的第三方库丰富了python的功能，今天就用python的第三方库requests和bs4这两个库来实现对一个网页的爬取

操作环境

python3.7.2
requests库
bs4库

requests库和bs4库下载

如果你的电脑只用python3的版本使用以下方式下载：

pip install requests
pip install bs4

如果你的电脑中python3和python2的版本都存在：

python3 -m pip install
python2 -m pip install

这一步是最基本的，如果没有安装成功请先自行百度解决。

目标网站：

https://book.douban.com/subject/20492971/comments/hot

先查看网络源代码，观察网页源代码的结构和我们要爬取的内容,这次我们要爬取的是用户名、用户评论、有用数，评论的星数和日期。
通过观察我们发现我们所需的内容主要出现在这一部分：

<span class="comment-info">
                    <a href="https://www.douban.com/people/sophiagracewei/">Sofia</a>
                        <span class="user-stars allstar40 rating" title="推荐"></span>
                    <span>2013-06-30</span>
                </span>
            </h3>
            <p class="comment-content">
            
                <span class="short">《都挺好》=《回家》。强势母亲带来的家庭矛盾：
                懦弱的儿子+强势的女儿。
                纵容的宠爱是一种慢性毒药，慢慢侵蚀人的奋斗、拼搏精神和生存能力。
                “穷养”的女儿被逼着成长，凌厉干练，

最低0.47元/天解锁文章

飞鱼锦衣

关注

7
点赞
踩
57

收藏

觉得还不错? 一键收藏
3
评论
使用python，爬取网页评论

使用python，爬取网页评论（实例：豆瓣《都挺好》）python的第三方库丰富了python的功能，今天就用python的第三方库requests和bs4这两个库来实现对一个网页的爬取操作环境python3.7.2requests库bs4库requests库和bs4库下载如果你的电脑只用python3的版本使用以下方式下载：pip install requestspip ins...
复制链接

扫一扫