利用python抓取“好奇心日报“内容

Python 的知识很多,基本的入门就有很多东西要学,还有各种合样的库要学习。很多同学学了一段时间,进展很慢,学了前面忘了后面!今天我就给大家介绍一个非常简单的爬虫小例子,来综合练习,非常不错!

01

爬取的目标

我们这次选择一个比较好玩的网站叫"好奇心日报",里面的内容非常有趣,而且图片都是高清,非常漂亮,今天我们就探索一下好奇心日报的爬取。

图片

02

准备工作

前期需要对这个网站进行简单的分析,网页的结构,源码的查看,有无反爬策略等等。

图片

03

主体代码

1)先创建数据库

数据库我们用选择最最简单的 sqlite3 ,这个数据非常适合小白入门。这个库的详细用法。

图片

用一个类QDaily_DB来专门处理db的创建,保存和关闭.上面的代码是创建部分:

1)创建一个数据库名字叫qdaily.db,里面分布建2张表

2)一张表qdality用来保存好奇心日报的id,标题,点赞分享数,日期和评论数

3)一张表comments用来保存好奇心日报的id和每一条评论的内容

2)网页爬取

网页的爬取,我们这里并没有用什么高深的库和爬虫框架,用简单的requests+bs4的组合,这一个一套比较适合小白上手的库,也没有用并发框架。

1).网页的下载

前面说了,好奇心日报的url的规则已经找到,只要一个一个解析就行!

在这里插入图片描述

  • 我们输入一个id,来构造一个url,然后把这个url填入到requests中解析即可。
  • 注意编码方式,获得页面的内容html_content,然后把详细的html_content内容填入parse_html类函数中进行详细处理.
  • 为了防止出现爬取异常,一定要加入try/except和finally这样的异常保护

3).页面的解析和评论内容的获取

下面就是这个项目稍微难有点的地方,需要用BeautifulSoup来详细解析页面的内容。

图片

评论区的内容稍微有一点点的复制,需要用构造一个header取获取,直接解析页面无法获取。

图片

图片

我们用两个简单数据结构,一个是primary_data这个可以是列表,元组或者字典,这是一种数据结构,用来保存我们爬取获得每一篇文章的id,日期,标题等等。另外一个是 comments_data用来存放评论区的内容,然后返回即可。

04:数据存入数据库

前面我们有一个类QDaily_DB,用了创建的类函数,现在用它的save_db函数来把数据入库。

图片

sqlite的操作非常简单,用的也是SQL的语法,上手来说非常方便。我们用insert语句动态插入数据,然后execute去执行,最后不要忘记commit!

05.:数据的展示

爬完5万篇文章用了快一天,虽然多线程可以加快速度,但我采用单线程减轻好奇心日报服务器的压力, 先是根据文章分享数排序:

图片

然后是根据文章的评论数排序:

图片

06:好奇心日报文章id与评论数的关系

感觉好奇心日报用的人越来越多了,那么随着id的增加,文章的平均评论数应该也会增加。

图片

图片

可以看出越到后面,平均每篇文章的分享数就越多,反映出好奇心日报的用户数变多

07:根据评论生成词云

用matplotlib和wordcloud库生成一个词云评论图,看看哪些关键字比较集中!

图片

生成的词云结果如下

在这里插入图片描述

发现评论比较多的是"哈哈哈",“是的”,“呵呵”,"谢谢"这样的短口语词汇。整个这个实战小例子还是非常有趣的,从数据爬取-数据入库,数据分析和词云,一条龙服务,还是非常值得去试试,对初学者强化基础知识,入门比较有帮助。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

包括:Python激活码+安装包、Python web开发,Python爬虫,Python数据分析,人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python!

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。(全套教程文末领取)

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

温馨提示:篇幅有限,已打包文件夹,获取方式在:文末

👉Python70个实战练手案例&源码👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错,但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传,朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取保证100%免费

  • 30
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值