Python 爬虫入门教程
文章平均质量分 70
本课程主要针对于 Python 初学者,介绍一些基础的爬虫知识。
hwaphon
这个作者很懒,什么都没留下…
展开
-
Python 入门之旅
昨天写了一篇文章叫做 《十分钟入门 Python》,里面仅仅介绍了 Python 的一些基础属性,想要利用那么点知识有所作为的话,怕是有点难度。所以今天再来详细介绍一下 Python 的语法知识。 1 . 数与字符串Python 中数有 5 中类型, 分别为 int(有符号整数型) , long(长整型) , float(浮点型) , bool (布尔型) , complex (复数型)a =原创 2016-08-15 13:37:19 · 2633 阅读 · 3 评论 -
Python 爬虫第一步
正则表达式的使用想要学习 Python 爬虫 , 首先需要了解一下正则表达式的使用,下面我们就来看看如何使用。 . 的使用 这个时候的点就相当于一个占位符,可以匹配任意一个字符,什么意思呢?看个例子就知道import recontent = "helloworld" b = re.findall('w.',content) print b 注意了,我们首先导入了 re,这个时候大家猜一下输出结果是什原创 2016-08-21 19:34:30 · 3318 阅读 · 2 评论 -
Python 爬虫第二步 -- 爬取麦子学院课程信息
介绍本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像下面这样这个时候进行翻页,观看网址的变化,首先,第一页的网址是 http://www.maiziedu.com/course/list/, 第二页变成了 http://www.maiziedu.com/原创 2016-08-22 11:23:08 · 3665 阅读 · 0 评论 -
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊。其实我个人认为学习一下正则表达式是大有益处的,之所以换成 XPath ,我个人认为是因为它定位更准确,使用更加便捷。可能有的人对 XPath 和正则表达式的区别不太清楚,举个例子来说吧,用正则表达式提取我们的内容原创 2016-08-23 06:57:36 · 6588 阅读 · 0 评论 -
Python 爬虫实战 - 糗事百科段子
早上起来闲来无事做,莫名其妙的就弹出了糗事百科的段子,转念一想既然你送上门来,那我就写个爬虫到你网站上爬一爬吧,一来当做练练手,二来也算找点乐子。其实这两天也正在接触数据库的内容,可以将爬取下来的数据保存在数据库中,以待以后的利用。好了,废话不多说了,先来看看程序爬取的数据结果值得一提的是,我在程序中想一下子爬取糗事百科 30 页的内容,但是出现了连接错误,当我把页数降到 20 页的时候,程序就可以原创 2016-08-25 09:57:35 · 2182 阅读 · 2 评论 -
MongoDB 安装以及使用
MongoDB 介绍之前学过 SQL Server , MySQL , SQLite , 除了 SQL Server 学习过原理之外,其它的也只是学习简单的使用就草草了事了,现在又开始入手 MongoDB 了,其实个人感觉所有的数据库操作起来都基本差不多,并不难学。那么我为什么要学习 MongoDB 呢? 因为我想要存取我爬取的数据,最近在学习 Python 爬虫,既然浪费时间爬取了数据,为什么不原创 2016-08-26 21:24:34 · 2482 阅读 · 0 评论 -
Python 爬虫 + MongoDB
在以上两篇文章中已经介绍到了 Python 爬虫和 MongoDB , 那么下面我就将爬虫爬下来的数据存到 MongoDB 中去,首先来介绍一下我们将要爬取的网站, readfree 网站,这个网站非常的好,我们只需要每天签到就可以免费下载三本书,良心网站,下面我就将该网站上的每日推荐书籍爬下来。 利用上面几篇文章介绍的方法,我们很容易的就可以在网页的源代码中寻找到书籍的姓名和书籍作者的信息。找到之原创 2016-08-30 20:58:21 · 3513 阅读 · 1 评论