weixin_42152274-CSDN博客

原创 BeautifulSoup4选择器

CSS 选择器：BeautifulSoup4和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup 用来解...

2019-03-13 10:21:06 247

原创 XPath选择器(Xpath与lxml)

我正则用的不好，处理HTML文档很累，有没有其他的方法？有！那就是XPath，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 ...

2019-03-13 10:20:18 229

原创非结构化数据与结构化的数据提取

页面解析和数据提取一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。非结构化数据：先有数据，再有结构，结构化数据：先有结构、再有数据不同类型的数据，我们需要采用不同的方式来处理。非结构化的数据处理文本、电话号码、邮箱地址正则表达式 HTML 文件正则表达...

2019-03-13 10:19:40 3544

原创正则表达式re模块

我们前面都接触了正则，那么正则表达式在爬虫中的重要性我们今天就来了解一下为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据（按照我们想要的方式存储和使用）我们在昨天的案例里实际上省略了第3步，也就是"取"的步骤。...

2019-03-13 10:18:27 374

原创 Requests: 让 HTTP 服务人类

虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用：）Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和...

2019-03-13 10:16:07 260

原创 urllib 的异常错误处理

在我们用urlopen或opener.open方法发出一个请求时，如果urlopen或opener.open不能处理这个response，就产生错误。这里主要说的是URLError和HTTPError，以及对它们的错误处理。URLErrorURLError 产生的原因主要有：没有网络连接服务器连接失败找不到指定的服务器我们可以用try ...

2019-03-13 10:14:38 3548

原创 Cookie

Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪，而储存在用户浏览器上的文本文件数据（通常都是经过加密的），Cookie可以保持登录信息到用户下次与服务器的会话。Cookie原理HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性，包括：Cookie名字（Name）Cookie的...

2019-03-13 10:13:48 916

原创 HTTPPasswordMgrWithDefaultRealm()

HTTPPasswordMgrWithDefaultRealm()类将创建一个密码管理对象，用来保存 HTTP 请求相关的用户名和密码，主要应用两个场景：验证代理授权的用户名和密码 (ProxyBasicAuthHandler()) 验证Web客户端的的用户名和密码 (HTTPBasicAuthHandler()) ProxyBasicAuthHandler(代理授权验证...

2019-03-13 10:12:57 1292

我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden，这时候打开网页一看，可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如，服务器会检测某个IP在单位时间内的请求次数，如果超过了这个阈值，就会直接拒绝服务，返回一些错误信息，这种情况可以称为封...

2019-03-13 10:12:16 10277

原创 urllib（urllib2）默认只支持HTTP/HTTPS（POST方法）

POST方式：上面我们说了Request请求对象的里有data参数，它就是用在POST里的，我们要传送的数据就是这个参数data，data是一个字典，里面要匹配键值对。有道词典翻译网站：输入测试数据，再通过使用Fiddler观察，其中有一条是POST请求，而向服务器发送的请求数据并不是在url里，那么我们可以试着模拟这个POST请求于是，我们可以尝...

2019-03-13 10:07:48 836

原创 urllib库的基本使用

所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib。urllib 是 Python3 自带的模块(不需要下载，导入即可使用)urllib 官方文档：https://docs.python.org/3/library/urllib.html可以基本看到里面的四大模块注...

2019-03-07 09:10:50 273

原创环境的配置

开发环境配置和安装介绍1.安装python32.pip 的使用3.请求库安装（都可以使用豆瓣源）豆瓣源地址：https://pypi.douban.com/simple/pip3 install requests Requests 唯一的一个非转基因的 Python H...

2019-03-07 09:10:03 154

原创 robots协议介绍：

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。obots.txt文件是一个文本文件，使用任何一个常见的文本编辑器，比如Windows系统自带的Notepad，就可以创建和编辑它 [1] 。robots.txt是一个协议，而不是一个命令。r...

2019-03-07 09:08:34 499

原创文件的I/O流操作

每日小知识：什么是I/O?I/O输入/输出(Input/Output)，分为IO设备和IO接口两个部分。在POSIX兼容的系统上，例如Linux系统[1]，I/O操作可以有多种方式，比如DIO(Direct I/O)，AIO(Asynchronous I/O，异步I/O)，Memory-Mapped I/O(内存映射I/O)等，不同的I/O方式有不同的实现方式和性能，在不同的应用中...

2019-03-07 09:07:49 1149 1

原创 python虚拟环境搭建和使用、文件I/O流操作

python虚拟环境搭建和使用Ubuntu下配置virtualenv和virtualenvwrapper(1) 安装virtualenvsudo pip3 install virtualenv -i https://pypi.douban.com/simple/其实配置好virtualenv之后我们就可以使用虚拟环境了，但是这里我们还要再配置virtualenvwrappe...

2019-03-07 09:07:08 232

原创 HTTP/HTTPS抓包工具—Fiddler(使用)

HTTP代理神器FiddlerFiddler是一款强大Web调试工具，它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候，默认IE的代理设为了127.0.0.1:8888，而其他浏览器是需要手动设置。工作原理Fiddler 是以代理web服务器的形式工作的，它使用代理地址：127.0.0.1，端口：8888Fiddler抓取HTTPS设置打开工具栏-&...

2019-03-07 09:05:27 330

原创 HTTP和HTTPS

参考地址：http://www.mamicode.com/info-detail-1093088.htmlHTTP协议（HyperText Transfer Protocol）中文名叫超文本传输协议：是用于从网络传送超文本数据到本地浏览器的传送协议HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全...

2019-03-07 09:03:19 718

原创爬虫的分类

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种.通用爬虫通用网络爬虫是捜索引擎抓取系统（Dubai、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。通用搜索引擎（Search Engine）工作原理通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引...

2019-03-07 09:02:25 849

weixin_42152274的博客