![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python3网络爬虫
学习中国慕课mooc的python3网络爬虫和信息提取的教学视频课程,记录的笔记
L_xiao_jie
这个作者很懒,什么都没留下…
展开
-
Scrapy爬虫框架——使用
一、安装Win平台: “以管理员身份运行”cmd 执行pip install scrapy安装后小测: 执行scrapy‐h二、常用指令Scrapy是给程序员用的,故采用命令行(不是图形界面)的形式更容易自动化,适合脚本控制 .1.Scrapy命令行格式:2.指令:三、使用步骤步骤1:创建一个工程和Spider模板创建的工程目录结构:步骤2:编写Spider1、产生爬...原创 2020-02-11 22:15:52 · 168 阅读 · 0 评论 -
Scrapy爬虫框架——介绍
一、Scrapy爬虫框架介绍Scrapy不是一个函数功能库,而是一个爬虫框架。爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫二、Scrapy框架结构(5+2结构)三、框架的数据流路径(三条)第一条路径:1.Engine从Spider处获得爬取请求(Request) (框架入口)2.Engine将爬取请求转发...原创 2020-02-11 20:26:10 · 292 阅读 · 0 评论 -
Re库——正则表达式的运用
一、Re库介绍 ————Re库是Python的标准库,主要用于字符串匹配调用方式:importre二、正则表达式的表示类型raw string 类型(原生字符串类型),即:字符串前加个字母rstring类型三、Re库主要功能函数flags控制标记:re.search(pattern,string,flags=0)re.match(pattern,stri...原创 2020-02-11 02:04:58 · 255 阅读 · 0 评论 -
正则表达式
一、正则表达式的概念 ————用来简洁表达一组字符串的表达式,一种通用的字符串表达框架,可以用来判断某字符串的特征归属。最主要应用在字符串匹配中二、正则表达式的语法 ————正则表达式语法由字符和操作符构成三、实例...原创 2020-02-11 01:30:18 · 143 阅读 · 0 评论 -
信息标记与信息提取方法
一、信息标记的三种形式1、XML空元素的缩写形式:<imgsrc=“china.jpg” size=“10” />注释书写形式: <!‐‐Thisisacomment,very useful ‐‐>2、JSON多值用[,]组织键值对嵌套用{,}3、YAMML缩进表达所属关系“-”表达并列关系“|” 表达整块数据“#” 表示注释...原创 2020-02-09 23:10:15 · 188 阅读 · 0 评论 -
Beautiful Soup库——HTML/XML页面解析
一、Beautiful Soup库的安装和导入 ————Beautiful Soup库是解析、遍历、维护“标签树”的功能库 安装:Win平台: “以管理员身份运行”cmd 执行pip install beautifulsoup4模块导入Beautiful Soup库,也叫beautifulsoup4 或bs4约定引用方式如下,即主要是用BeautifulSoup类f...原创 2020-02-10 20:47:21 · 527 阅读 · 0 评论 -
Requests库网络爬取实战
一、编码格式r.encoding根据爬取到的文件head部分,识别文件的编码r.apparent_encoding根据爬取到的文件内容,识别文件的编码。使用该编码格式才可以阅读本文件通常使用方法:r.encoding= r.apparent_encoding二、网站访问受限问题查看请求头部 r.requests.headers例:可以看到该请求头部中说明是一个爬虫。故,有...原创 2020-02-09 20:00:47 · 182 阅读 · 0 评论 -
Requests库——小型定向爬虫
一、Requests库安装Win平台: “以管理员身份运行”cmd,执行pip install requests二、Requests库两个重要对象其中,Response对象包含爬虫返回的内容三、Requests库主要方法四、Response对象的属性其中:五、异常处理Requests库异常Response异常六、爬取网页的通用代码框架七、request方法详...原创 2020-02-08 19:47:07 · 132 阅读 · 0 评论 -
HTTP协议
一、HTTP协议1.HTTP,Hypertext Transfer Protocol,超文本传输协议无状态指的是不会记录请求状态2. HTTP URLURL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源二、HTTP协议对资源的操作具体方法详解:...原创 2020-02-08 19:12:30 · 375 阅读 · 0 评论