2018年04月_wddzz

原创 Windows下MongoDB安装及环境配置

1、下载MongoDB安装包：官网地址：https://www.mongodb.com/download-center?jmp=nav#community 一路点击next安装，可以自定义安装路径，例如安装在H:\mongo2、安装完成后，打开安装路径，在bin的同级文件夹建立一个data文件夹，进入data文件夹，①建立一个db文件夹(路径为H:\m...

2018-04-30 12:14:33 157

转载 Item Loader使用详解

Items 提供保存抓取数据的容器，而 Item Loaders提供的是填充容器的机制 ItemLoader 类位于 scrapy.loader ，它可以接收一个 Item 实例来指定要加载的 Item, 然后指定 response 或者 selector 来确定要解析的内容，最后提供了 add_css()、 add_xpat...

2018-04-24 17:59:04 3042

原创 CrawlSpider和XMLFeedSpider

一、CrawlSpider CrawlSpider除了从Spider继承过来的属性外，还提供了新的rules属性，提供跟进链接功能， rules属性是一个包含一个或多个Rule对象的集合，每个Rule对爬取网站的动作定义了特定的规则，对于多个Rule匹配相同的链接，根据它们在rules属性中被定义的顺序，第一个被使用。可以复写parse_start_url(re...

2018-04-24 12:57:59 293

转载 scrapy第一次请求方式的重写

当起始请求需要设置header,cookie,data时,则要对起始请求做处理,所以需要重写第一次请求处理函数start_request(self)1 设置header与cookie 如果在settings.py文件中设置请求头,则所有的蜘蛛文件都使用该请求头,然而不同的蜘蛛文件需要不同的请求头,因此需要给每个蜘蛛文件的请求设置独立的请求头. 设置独立的header和cookie方法为...

2018-04-24 10:45:24 4605

原创 selenium用法回顾

一、Selenium+PhantomJs最新版本的Selenium已不再支持PhantomJs，详情参考官网from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesdef getSource(url): # 设置请求头...

2018-04-22 22:34:05 304

原创 Python爬虫：Fiddler的使用和浏览器伪装技术

Fiddler是一款常见的抓包分析软件，利用Fiddler可以详细地对HTTP请求进行分析，并模拟HTTP请求。在爬虫中利用Fiddler，可以帮助我们更快地分析出一些动态网页加载的请求实现方式；在有了Fiddler，经过设置之后，本地应用和服务器之间的Request和Response都将经过Fiddler转发，Fiddler以代理服务器的方式存在。官网下载地址：https:...

2018-04-21 16:12:22 2030 1

1、HTTP协议是一个无状态协议，通过Cookie保存会话信息，从而判断目前的会话状态，比如可以判断是否已经登录。当我们用urlopen来请求一个URL时，都是使用的默认opener；当需要用到Cookie时，要创建一个更一般的opener；2、cookielib模块主要是提供可存储的Cookie对象，以便于与urllib2模块配合使用来访问Internet资源该模块主要的对象有CookieJar...

2018-04-20 23:58:41 233

转载 Lxml库及Xpath语法详解

一、Xpath术语1、节点：七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点2、节点关系：父、子、同胞、先辈、后代3、节点选取表达式描述nodename选取此节点的所有子节点/从根节点选取//从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。.选取当前节点..选取当前节点的父节点@选取属性实例在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：路径表达式...

2018-04-20 18:43:13 9303

转载爬虫VS反爬虫

爬虫与发爬虫的厮杀，一方为了拿到数据，一方为了防止爬虫拿到数据，谁是最后的赢家？重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫：使用技术手段防止爬虫程序爬取数据误伤：反爬虫技术将普通用户识别为爬虫，这种情况多出现在封ip中，例如学校网络、小区网络再或者网络网络都是共享一个公共ip，这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好，通常都...

2018-04-20 17:19:35 481 1

原创 Python网络爬虫：User Agent和代理IP

一、在urllib2中的使用：# 一：# 异常处理，及设置请求次数# 可添加time时间间隔import urllib2def download(url,num_retries=2): print("Downloading:",url) try: html = urllib2.urlopen(url).read() except urllib2.URLError as e: ...

2018-04-20 16:07:08 260

转载 selenium用法详解

selenium用法详解selenium主要是用来做自动化测试，支持多种浏览器，爬虫中主要用来解决JavaScript渲染问题。模拟浏览器进行网页加载，当requests,urllib无法正常获取网页内容的时候一、声明浏览器对象注意点一，Python文件名或者包名不要命名为selenium，会导致无法导入from selenium import webdriver#webdriver可以认为是浏览...

2018-04-19 20:57:46 1143

原创如何把本地项目上传到Github

参考链接：https://www.cnblogs.com/shenchanghui/p/7184101.html因为GitHub是基于git实现的代码托管，所以git是少不了的。我们要确认电脑上安装了git，没有安装的，就去安装git。至于安装方法，就自行百度吧。新建Test文件夹，里面添加几个文件。右击Test文件夹根目录，点击“Git Bash Here”，打开git命令行。按照github新...

2018-04-19 17:16:33 142

wddzz