自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 爬虫系列 | 第六讲 数据提取之 BeautifulSoup 4

内容大纲1. 什么是 BeautifulSoup4 ? 1. 什么是 BeautifulSoup4 ? 官方网址:https://www.crummy.com/software/BeautifulSoup/

2019-09-05 14:01:01 242

原创 爬虫系列 | 第五讲 数据提取之XPath

内容大纲1. 什么是Xpath?2.什么是 XML?3. XPath 语法3.1 Xpath 开发工具3.2 定位节点3.4 XPath的谓语3.5 XPath的运算符4. lxml 库4.1 什么是 lxml?4.2 lxml 基本使用? 1. 什么是Xpath? XPath 全程为XML路径语言(XML Path Language),是一门在 XML 文档中查找信息的语言,即能够用来确定XM...

2019-09-04 15:51:53 260

原创 爬虫系列 | 第四讲 数据提取之正则表达式

内容大纲1. 什么是数据提取?2. 什么是正则表达式?3. Python 中的re模块 1. 什么是数据提取? 在前几讲中,我们发起HTTP请求拿到响应的数据是全部的网页内容,这些数据很庞大并且很混乱,其中大部分的数据并不是我们所关心的。因此我们需要根据我们的需要提取出想要的数据来,即进行数据提取,基本的手段就是过滤/匹配。 对于文本数据的处理,进行数据的过滤或者规则的匹配,最强大的就是正则表达...

2019-09-03 16:04:49 783

原创 爬虫系列 | 第一讲 爬虫初识

内容大纲1. 什么是爬虫?2. 爬虫的本质是什么?3. 编写爬虫的基本步骤? 1. 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。 2. 爬虫的本质是什么? 模拟浏览器打开网页,获取网页中...

2019-09-02 18:19:59 325

原创 爬虫系列 | 第三讲 Requests 库

内容大纲1. 什么是 Requests ?2. 发起 GET 请求3. 发起 POST 请求 1. 什么是 Requests ? Requests 是一个常用的用于HTTP请求的第三方模块,其实在Python内置的urllib 基础之上进一步封装编写的。 Requests的使用它会比 urllib 更加方便,可以大大提高我们的开发效率,建议爬虫开发使用 Requests 库。 Requests ...

2019-09-02 18:19:46 279

原创 爬虫系列 | 第二讲 urllib库

内容大纲1. 什么是urllib?2. 发起 HTTP 请求2.1 urlopen![在这里插入图片描述](https://img-blog.csdnimg.cn/20190830125211761.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubm...

2019-09-02 18:18:23 373

原创 网络协议系列 | HTTP 协议

内容大纲1. 什么是HTTP协议?2. HTTP 的发展历史?2.1 HTTP 0.92.2 HTTP 1.02.3 HTTP 1.12.4 HTTP 2.03. HTTP 的报文格式?3.1 请求报文3.1.1 请求报文格式介绍3.1.2 请求方法3.1.2 常见的请求头字段3.2 响应报文3.2.1 响应报文格式介绍3.2.2 响应状态码3.2.3 常见的响应头字段4. HTTP 的主要特点 ...

2019-09-02 15:55:46 328

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除