spider
奋斗的小小骚年
小白程序员的成长之路
展开
-
简单爬虫入门
一、爬虫定义网络爬虫(又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。二、使用python做爬虫的好处1.php 对多线程、异步支持不够好,并发处理能力很弱。爬虫是工具性程序,对速度和效率要求比较高。2.Java 语言本身很笨重,代码量很大。 重构成本比较高,任何修改都会...原创 2018-07-12 11:47:22 · 261 阅读 · 0 评论 -
网络爬虫 Handler处理器和自定义Opener,URLError和HTTPError
一、Handler处理器和自定义Opener1 opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。urllib.request.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Ope...原创 2018-07-12 11:54:08 · 279 阅读 · 0 评论 -
Handler处理器和自定义Opener,URLError和HTTPError
一、Handler处理器和自定义Opener1 opener是 urllib.request.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。urllib.request.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Ope...原创 2018-07-12 11:59:44 · 173 阅读 · 0 评论 -
网络爬虫 requests 的使用
1.get 请求import requestskw = {'wd':'美女'}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"response = requests....原创 2018-07-12 12:01:42 · 685 阅读 · 0 评论 -
http 常见的request 请求头,response 响应头,常见的http状态码
request 请求头1.Host (主机和端口号)Host:对应网址URL中的Web名称和端口号,用于指定被请求资源的Internet主机和端口号,通常属于URL的一部分。2.Connection (链接类型)Connection:表示客户端与服务连接类型Client 发起一个包含 Connection:keep-alive 的请求,HTTP/1.1使用 keep-alive 为默认值。 Con...原创 2018-07-12 14:10:43 · 14245 阅读 · 0 评论 -
网络爬虫 之 xpath语法 详解
选取节点XPath 使用路径表达式来选取 XML或HTML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。下面列出了最常用的路径表达式: 表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 ...原创 2018-07-12 14:30:44 · 475 阅读 · 0 评论 -
网络爬虫 lxml库--解析和提取 HTML/XML 数据
一、lxml库的使用我们利用它来解析 HTML 代码from lxml import etreetext = '''<div> <ul> <li class="item-0"><a href="link1.html">first item</a></li>原创 2018-07-12 15:39:20 · 4704 阅读 · 0 评论 -
BeautifulSoup4 --解析和提取 HTML/XML 数据
1. BeautifulSoup41.1 BeautifulSoup4简介BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低...原创 2018-07-12 16:53:23 · 6794 阅读 · 0 评论 -
json 和 python 的相互转化,并保存json文件
import json# json数组转python列表json_array = '[1,2,3,4]'print(type(json_array))python_list = json.loads(json_array) # 转化为python 列表# 读取json文件并json数组转python列表fp = open('json_array.json', 'r')python...原创 2018-07-12 16:58:23 · 7636 阅读 · 0 评论