爬虫
TT9980
啥都不会 又啥都懂点
展开
-
爬虫——re正则解析器
用正则表达式提取数据正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。单字符匹配,多字符匹配,匹配分组,(三大类)对文本进行匹配查找的一系列方法???? match 方法:从起始位置开始查找,一次匹配???? search 方法:从任何位置开始查找,一次匹配???? findall 方法:全部匹配,返回列表???? finditer 方法:全部匹配,返回迭代器???? sp...原创 2019-12-20 22:05:14 · 395 阅读 · 0 评论 -
爬虫——数据爬取-bs4解析器
BeautifulSoup4Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。它基于 HTML DOM 的,会载入整个文档,解析整个 DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持...原创 2020-01-31 00:27:32 · 796 阅读 · 0 评论 -
爬虫——数据爬取-xpath解析器
Xpath预备知识HTML DOM 模型示例HTML DOM 定义了访问和操作 HTML 文档的标准方法,以树型结构表示HTML 文档。如何实现爬虫数据的解析?1、 定位html文档中的节点2、 提取指定节点的属性,比如href,class等3、 获取指定节点的文本,比如a、p,div,span,div等的文本什么是XPath?XPath (XML Path Language)...原创 2020-01-29 23:51:43 · 918 阅读 · 0 评论 -
爬虫——HTTP协议及审查元素
HTTP协议HTTP,HyperText Transfer Protocol,是互联网上应用最为广泛的一种网络协议。是一个基于TCP/IP通信协议来传递数据,一个属于应用层的协议浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息。HTTPS(Hypertext Transfer Protocol over Se...原创 2020-01-29 00:33:07 · 749 阅读 · 0 评论 -
爬虫——Requests库
简介Requests Python编写,基于 urllib,自称HTTP for Humans(让 HTTP 服务人类)特性: 支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自劢确定响应内容的编码,支持国际化的 URL 和 POST 数据自劢编码。使用更简洁方便,比 urllib 更加 Pythoner开源地址:https://github.com/kenn...原创 2020-01-29 00:25:38 · 448 阅读 · 0 评论 -
爬虫——搭建开发环境
1、什么是虚拟环境?虚拟环境是一个包含特定版本依赖包的开发的环境。virtualenv 虚拟环境的管理工具,可以创建多个互丌干扰的开发环境,库将安装到各自的目录下,丌会和其他环境共享。由于 virtualenv 用起来有点麻烦,virtualenvwrapper 对它进行了封装,让它更好用,我们使用wrapper提供的命令,但是实际工作都是virtualenv做的。2、虚拟环境安装Win...原创 2020-01-28 19:41:53 · 315 阅读 · 0 评论 -
--爬虫--
爬虫简介什么是爬虫?是一种按照一定的规则,自劢地抓取互联网信息的程序戒者脚本。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有许多库可以用来抓取网页分类1.通用爬虫(General Purpose Web Crawler)2.聚焦爬虫(Focused Web Crawler)3.增量式爬虫(Incremental Web Crawle...原创 2020-01-28 19:17:10 · 234 阅读 · 0 评论