爬虫
Eric Sang
这个作者很懒,什么都没留下…
展开
-
爬虫系列 | 第一讲 爬虫初识
内容大纲1. 什么是爬虫?2. 爬虫的本质是什么?3. 编写爬虫的基本步骤?1. 什么是爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。2. 爬虫的本质是什么?模拟浏览器打开网页,获取网页中...原创 2019-09-02 18:19:59 · 485 阅读 · 1 评论 -
爬虫系列 | 第二讲 urllib库
内容大纲1. 什么是urllib?2. 发起 HTTP 请求2.1 urlopen![在这里插入图片描述](https://img-blog.csdnimg.cn/20190830125211761.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubm...原创 2019-09-02 18:18:23 · 852 阅读 · 0 评论 -
爬虫系列 | 第三讲 Requests 库
内容大纲1. 什么是 Requests ?2. 发起 GET 请求3. 发起 POST 请求1. 什么是 Requests ?Requests 是一个常用的用于HTTP请求的第三方模块,其实在Python内置的urllib 基础之上进一步封装编写的。Requests的使用它会比 urllib 更加方便,可以大大提高我们的开发效率,建议爬虫开发使用 Requests 库。Requests ...原创 2019-09-02 18:19:46 · 435 阅读 · 0 评论 -
爬虫系列 | 第四讲 数据提取之正则表达式
内容大纲1. 什么是数据提取?2. 什么是正则表达式?3. Python 中的re模块1. 什么是数据提取?在前几讲中,我们发起HTTP请求拿到响应的数据是全部的网页内容,这些数据很庞大并且很混乱,其中大部分的数据并不是我们所关心的。因此我们需要根据我们的需要提取出想要的数据来,即进行数据提取,基本的手段就是过滤/匹配。对于文本数据的处理,进行数据的过滤或者规则的匹配,最强大的就是正则表达...原创 2019-09-03 16:04:49 · 969 阅读 · 0 评论 -
爬虫系列 | 第五讲 数据提取之XPath
内容大纲1. 什么是Xpath?2.什么是 XML?3. XPath 语法3.1 Xpath 开发工具3.2 定位节点3.4 XPath的谓语3.5 XPath的运算符4. lxml 库4.1 什么是 lxml?4.2 lxml 基本使用?1. 什么是Xpath?XPath 全程为XML路径语言(XML Path Language),是一门在 XML 文档中查找信息的语言,即能够用来确定XM...原创 2019-09-04 15:51:53 · 473 阅读 · 0 评论 -
爬虫系列 | 第六讲 数据提取之 BeautifulSoup 4
内容大纲1. 什么是 BeautifulSoup4 ?1. 什么是 BeautifulSoup4 ?官方网址:https://www.crummy.com/software/BeautifulSoup/原创 2019-09-05 14:01:01 · 429 阅读 · 0 评论