2018年04月_Daphar

原创爬虫基本原理与实战---1、爬虫实战概述

一、开发前准备1、开发环境准备基础准备(win10) 参考：python2与python3共存安装参考： pycharm安装及永久激活参考： mysql及navicat安装与使用及navicat破解参考：安装cmder替代cmd 推荐虚拟环境搭建进入到想要存放虚拟环境的目录下，安装virtualenvwrapper： pip in...

2018-04-13 14:29:53 2496

原创爬虫基本原理与实战---2、爬虫的基本流程

参考：http://www.cnblogs.com/zhaof/p/7173094.html 在上文中我们说了：爬虫就是请求网站并提取数据的自动化程序。其中请求，提取，自动化是爬虫的关键！下面我们分析爬虫的基本流程爬虫的基本流程发起请求通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应获取响应内容...

2018-04-26 09:19:19 386

原创爬虫---3、Urllib库的基本使用

官方文档地址：https://docs.python.org/3/library/urllib.html 转载自：https://www.2cto.com/kf/201801/714859.html什么是 Urllib 库？ urllib 库是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口，使访问 www 和 ftp 上的数据就像访问本地文件一样。有以下...

2018-04-26 09:18:43 442

转载爬虫基本原理与实战---4、Requests库的基本使用

https://www.cnblogs.com/zhaof/p/6915127.html

2018-04-26 09:18:15 250

原创爬虫---6、BeautifulSoup库的使用

BeautifulSoup库是灵活又方便的网页解析库，处理高效，支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。 BeautifulSoup库的安装，可参见博客：http://blog.csdn.net/qq_29186489/article/details/78581249常用的解析库如下：这里写图片描述基本使用如下所示：#_*_coding: u...

2018-04-26 09:17:48 661

PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。官网地址：http://pyquery.readthedocs.io/en/latest/ jQuery参考文档...

2018-04-26 09:17:19 241

转载爬虫基本原理与实战---8、Selenium库的使用

转载自：http://www.pythonsite.com/?p=188

2018-04-26 09:16:50 665

原创爬虫基本原理与实战---8、关于深度优先和广度优先

网站的树结构深度优先算法和实现广度优先算法和实现网站的树结构通过伯乐在线网站为例子：并且我们通过访问伯乐在线也是可以发现，我们从任何一个子页面其实都是可以返回到首页，所以当我们爬取页面的数据的时候就会涉及到去重的问题，我们需要将爬过的url记录下来，我们将上图进行更改在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL以什么样的顺序排队列也...

2018-04-26 09:16:11 1552

原创爬虫基本原理与实战---10、Cookie和Session

关于cookie和session估计很多程序员面试的时候都会被问到，这两个概念在写web以及爬虫中都会涉及，并且两者可能很多人直接回答也不好说的特别清楚，所以整理这样一篇文章，也帮助自己加深理解什么是Cookie其实简单的说就是当用户通过http协议访问一个服务器的时候，这个服务器会将一些Name/Value键值对返回给客户端浏览器，并将这些数据加上一些限制条件。在条件符合时，这个用户...

2018-04-26 09:15:23 375

原创正则的基本用法

一、了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。正则表达式的大致匹配......

2018-04-25 16:08:11 1515

原创爬虫基本原理与实战---12、选择器的用法

Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分 Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。 CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。XPath选择器参考：http://www.cnblogs.com/MUMO/p/5...

2018-04-25 15:51:43 321

原创 scrapy原码解读---CrawlSpider

CrawlSpider也继承自Spider，所以具备它的所有特性，在CrawlSpider源码中最先定义的是类Rule。一、Rule类class Rule(object): def __init__(self, link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, p...

2018-04-06 09:32:16 265

原创 scrapy原码解读---Spider

一、spider的作用和功能根据url生成Request并指定回调方法处理Response。第一个Request是通过start_requests()产生的；在回调方法中，解析页面的Response，返回Item实例或者Request实例，或者这两种实例的可迭代对象；在回调方法中，通常使用Selectors（也可以使用BeautifulSoup，lxml等）来提取数据...

2018-04-06 09:31:26 460

大发的博客