![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
沧海一树_
这个作者很懒,什么都没留下…
展开
-
网络爬虫--Xpath解析(8)
1.网页缺省补全 def handing(source): source = etree.HTML(source) #etree.parse('文件路径',etree.HTMLParser) source = etree.tostring(source) source = source.decode('UTF-8') #对网页中缺省的节点进行补全2.选取所有...原创 2018-09-16 16:55:51 · 210 阅读 · 0 评论 -
网络爬虫--Robots协议(7)
robots也称为爬虫协议和机器人协议。全名为“网络爬虫排除标准”,用来告诉爬虫和搜索引擎那些页面可以爬取,那些不可以爬取。利用urllib中的robotparser模块能够对协议进行分析当爬虫爬取网站时会在根目录和网站的入口文件下查找robots.txt文件。robots.txt的内容一般如下User-agent:* #描述爬虫名称Disallow:/ ...原创 2018-07-24 17:42:32 · 368 阅读 · 0 评论 -
网络爬虫--解析连接(6)
1.urlparse用于解析网络链接,用于实现URL各部分的抽取、合并和装换#!usr/bin/env python#-*- coding:utf-8 -*-from urllib.parse import urlparseresult = urlparse('http://news.baidu.com/?tn=news')print(result)result = ur...原创 2018-07-23 17:06:26 · 259 阅读 · 0 评论 -
网络爬虫--处理异常(5)
1.URLError来自urllib来自error模块,他继承自OSError,是error异常模块的基类。用来补充request模块抛出的错误。拥有一个属性reason,即返回错误的原因from urllib import request,errortry: response = request.urlopen('http://www.asd.com/index.ht...原创 2018-07-23 15:10:21 · 304 阅读 · 0 评论 -
网路爬虫--库的高级用法(4)
目录1.BaseHandle类2.OpenerDirector3.例子3.1登录请求3.2代理3.3Cookie3.3.1将cookie存储在本地对于一些高级的操作需要用到处理工具。如专门处理登录验证的,有处理饼干的,代理1.BaseHandle类他是所欲手柄类的父类,他的子类有:HTTPDefaultErrorHandle:用于处理HTTP相应错误,...原创 2018-07-23 11:30:31 · 175 阅读 · 0 评论 -
网路爬虫--基本库的使用(3)
目录1.urllib库1.2urlopen发送请求1.2.1HTTPRequest的方法和属性1.2.2urlopen详解2.request2.1Request详解1.urllib库urllib库中包含4各模块:request、error、parse、robotparser(识别robot.txt文件,判断是否可以爬取)。1.2urlopen发送请求使...原创 2018-07-22 15:57:45 · 134 阅读 · 0 评论 -
网络爬虫--基本原理(2)
目录1.网页基础1.1网页结构2.爬虫的基本原理2.1获取页面2.2提取信息2.2.1JS渲染的页面2.2.2无状态HTTP2.3.保存数据2.4自动化程序3.代理的基本原理1.网页基础html:http://www.w3school.com.cn/html/index.asp css:http://www.w3school.com.cn/css/...原创 2018-07-21 13:40:03 · 574 阅读 · 0 评论 -
网络爬虫---HTTP基础(1)
目录1.HTTP基本原理1.1 URL \ URI \ URN1.2HTTP和HTTPS1.3HTTP请求过程1.3.1GET和POST请求1.3.2请求头1.3.3请求体1.3.4响应1.HTTP基本原理1.1 URL \ URI \ URNURL:统一资源定位符,URI统一资源标志符,URN:统一资源名称1.2HTTP和HTTPS超...原创 2018-07-20 16:40:25 · 308 阅读 · 0 评论