自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 反反爬策略(一) Scrapy添加User-Agent池

鉴于爬虫的高效率以及无差别性,在获取一些网站的内容时,会对服务器造成巨大的压力,以至于网站管理者为了保持服务器的平衡,会做一些反爬虫的措施,阻止爬虫的前进。道高一尺魔高一丈。为了应对这些反爬措施,虫子们也有自己的方法。对此,希望能分享一点经验,最主要的是能够做好学习笔记,方便日后的查看。NO.1 添加User-Agent池User-Agent是headers中的一个属性,表示当前访问服务器的...

2018-10-31 14:57:25 1450

原创 迁移环境的模块方法介绍

关于迁移环境模块的使用日常开发过程中,相同的项目通常都会使用同一个虚拟环境,例如爬虫项目中使用的第三方库以及解释器,ChromeDriver都一样,没有必要再重新建立一个新的虚拟环境。只需要使用原来的虚拟环境即可。服务器上使用一个已经安装好的虚拟环境包是一个非常麻烦的事情。所以给大家介绍一个简便的复制虚拟环境包的方法。第一步:将已有的虚拟环境保重的库以及版本保存到一个文件中。pip f...

2018-10-31 10:43:54 532

转载 反爬与反反爬策略

常见反爬虫策略知己知彼,百战不殆。我们想防止爬虫被 ban就得了解一些常见的反爬虫措施。但要反爬虫还得先识别爬虫,所以首先讲讲如何识别爬虫。方法1:http日志和流量分析,如果单位时间内某个IP访问频率和流量超过特定阈值就可以界定为爬虫。方法2:Headers参数检测Scrapy学习笔记(6)-反爬虫与反反爬虫策略上图是浏览器正常访问站点时发送的数据包,可以看到Request Head...

2018-10-31 08:51:23 1031

原创 关于爬取图片链接的一些处理

日常的爬取数据时,对于一些图片以及网页url常常是不完整的。需要我们对其进行一些处理,保存完整的url到需要的文件中。这就需要我们对这些不完整的url进行补全的操作。下面分享一个用来处理不完整url的方法。from urllib.parse import urljoinurl = "/wcm.files/upload/CMSnq/201804/201804270445055.jpg"ne...

2018-10-30 16:25:18 1569

原创 读取json文件报错:json.decoder.JSONDecodeError: Extra data: line 6 column 2 (char 1329)

读取json文件数据时,由于指定的json文件内包含多个json格式的数据,所以报错。解决方案:1、单行读取文件2、保存数据源的时候,格式写为一个对象。将多个json文件合并到一个json内即可。...

2018-10-30 09:37:01 28475

原创 selenium的安装和使用

selenium的安装selenium是一个浏览器为web自动化测试工具,原本是用来检测浏览器的。由于selenium可以控制浏览器,即用selenium打开的浏览器内容都可以通过特定的方式获取到。一般用于获取javaScript动态渲染的页面。第一步:安装python的selenium库pip install selenium第二步:选择要控制的浏览器.浏览器分为视图化浏览器(常用的...

2018-10-29 17:42:12 1222

原创 # GIt版本管理工具的使用

GIt版本管理工具的使用由于以前都是只负责使用工具的,对于一些工具以及基础模块的安装都存在盲区。立志要成为一个优秀的菜鸟,与大家共勉。git工具是用来记录代码的完善过程,方便查看代码版本。分享自己的安装过程,避免大家少走弯路。第一步下载地址:https://git-scm.com/download/win根据自己的电脑选择是32位的还是64位的。下载完后直接运行,之后一直next就好...

2018-10-29 11:35:57 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除