2019年08月_走在分布式的路上

原创爬虫一般步骤

实现爬虫的套路准备url准备start_urlurl地址规律不明显，总数不确定通过代码提取下一页的urlxpath提取寻找url地址，部分参数在当前的响应中(比如当前页码数和总的页码数在当前的响应中)准备url_list页码总数明确url地址规律明显发送请求，获取响应添加随机的User-Agent,反反爬虫添加随机的代理ip在对方判断出是爬...

2019-08-31 14:57:08 560

原创爬虫(三)——数据提取(3)之XPath

数据提取(3)XPath的使用XPath和XLML类库lxml是一款高性能的python HTML/XML解释器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息。XPath(XML Path Language)定义：是一门在HTML/XML文档中查找信息的语言，可以用来在HTML/XML文档中对元素和属性进行遍历。学习文档：https://www.w3school.com...

2019-08-28 21:00:59 559

原创爬虫(三)——数据提取(2)

数据提取(2)正则表达式定义：就是用事先定义好的一些特定字符、以及这些特定字符的组合，组成一个“规则字符串”，这个"规则字符串"用来表达对字符串的一种过滤逻辑。常用正则表达式的方法：re.compile(编译)pattern.match(从头找一个)pattern.search(找一个)pattern.findall(找所有)pattern.sub(替换)正则表达式中字符...

2019-08-28 18:52:56 126

原创爬虫(三)——数据提取(1)

数据提取数据提取概念：从响应中获取我们想要的数据的过程数据分类非结构化的数据：html等处理方法：正则表达式、xpath结构化数据：json、xml等处理方法：转化为python数据类型数据提取之json由于把json数据转化为python内建数据类型很简单，所以爬虫中，如果我们能够找到返回json的URL，就会尽量使用这种URL。JSON的概念：是一种轻...

2019-08-27 21:33:59 812

原创爬虫(二)

爬虫(二)Requests深入1.发送POST请求哪些地方需要发送POST请求：登陆注册 (POST比GET更安全)需要传输大文本内容的时候(POST请求对数据长度没有要求)用法：response = requests.post(“http://www.baidu.com/”,data = data,headers=headers)data的形式：字典...

2019-08-26 20:57:31 430

转载为什么说扁平胜于嵌套

为什么说扁平胜于嵌套这句话出自《python之禅》转载文章https://blog.csdn.net/gzlaiyonghao/article/details/2151918

2019-08-21 22:34:57 759

原创爬虫(一）

爬虫学习(一)一.爬虫的概念模拟客户端(浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动的抓取互联网信息的程序。二.爬虫的流程url–>发送请求，获取响应–>提取数据–>入库发送请求，获取响应–>提取url三.ROBOTS协议网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取。例如：https://www.taob...

2019-08-21 19:14:42 193

weixin_43170863的博客