python爬虫
文章平均质量分 92
青衫故人旧33
Stay hungry, stay foolish.
展开
-
python3.6爬虫案例:爬取百度歌单。
一、写在前面。 由于先前实验室学术研究的需要,自己开始学习python爬虫技术。学习的过程中写了几个爬虫的案例,分别有:百度音乐歌单爬取,百思不得姐视频爬取、潮秀网图片爬取(里面尺度有点大,学习乐趣也不少^_^)、顶点小说爬取、历史天气爬取等。接下来就按照顺序一一贴出来和大家一起分享,希望对学习爬虫的朋友有所益处,也欢迎大家一起学习交流。 这次我们先聊聊爬取百度音乐歌单...原创 2018-03-07 17:41:27 · 2241 阅读 · 0 评论 -
python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)
一、写在前面 这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬。所幸先来说说如何爬取顶点小说吧。 顶点小说(https://www.x23us.com)里面的内容很丰富,不过我们要爬的话最好爬已经完结的全本小说(https://www.x23us.com/quanben/)。爬完我们可以直接将.txt文件放入手机看,很过瘾的哦。(本篇博客由于内容丰富,篇...原创 2018-03-08 15:52:48 · 9095 阅读 · 7 评论 -
python3.6爬虫案例:爬取某网站所有PPT(下)。
上篇博客:python3.6爬虫案例:爬取某网站所有PPT(上)给大家介绍了爬取(http://www.1ppt.com/)网站中的ppt文件,爬下来的文件如下:所以,我们就要考虑将其名称修改为其在网页中显示的名字,并将其批量解压到指定文件夹。一、批量修改压缩文件名称。细心的伙伴可以从上图发现,压缩文件的格式不同有zip、rar两种格式,所以我们需要分别处理,在后续的批量解压文件中需要不同的pyt...原创 2018-04-15 10:21:53 · 7336 阅读 · 0 评论 -
python3.6爬虫案例:爬取某网站所有PPT(上)。
写在前面 这次实现之前的flag:爬取第一ppt网站的所有PPT,当然网站中有其他很多的学习资料,这次只爬取PPT。不仅可以平时做模板演示用,还可以练习爬虫,岂不美滋滋。闲话不多说,进入正题。 先来说下网站(http://www.1ppt.com/)特点,该网站的结构很清晰,但是网站中的链接如果取下来是不能直接输入浏览器访问的,即:防盗链,这带来了不少额外的工作量....原创 2018-04-12 20:34:15 · 23580 阅读 · 3 评论 -
python3.6爬取凤凰网新闻-爬虫框架式思维
一、序言 先前几篇爬虫的代码,是简单的脚本代码。在爬取小网页觉得挺简单、高效,但涉及复杂网页的时候,就要考虑成熟的爬虫框架与分布式。本篇博客作为无框架式爬虫和有框架式爬虫的一个过渡,介绍具有框架式思维的爬虫^_^。二、框架结构图 通常爬虫分为五个部分,分别为:爬虫调度器、URL管理器、网页下载器、网页解析器与数据存储器。各部分的作用如下:爬虫框架模块作用说明模块名称作用...原创 2018-04-29 17:26:02 · 5071 阅读 · 2 评论 -
python3爬取天气数据存入mysql数据库
爬虫的目的往往是为了获取数据,如果爬取的数据量较小可以用csv格式存储,但在数据量大的情况下可以考虑存入数据库,不仅保存方便,查询调用效率快。本篇博文的目的是为了展示如何将爬取的数据存入数据库。如果大家想学习更多的关于mysql数据库的知识请点击: MySQL学习。 本篇博客以爬取过去时间天气数据为例,将爬取到的数据存入到数据库。关键的两点是如何连接数据库以...原创 2019-08-18 21:56:00 · 5819 阅读 · 7 评论