2018年10月_北房有佳人

原创反反爬策略（一） Scrapy添加User-Agent池

鉴于爬虫的高效率以及无差别性，在获取一些网站的内容时，会对服务器造成巨大的压力，以至于网站管理者为了保持服务器的平衡，会做一些反爬虫的措施，阻止爬虫的前进。道高一尺魔高一丈。为了应对这些反爬措施，虫子们也有自己的方法。对此，希望能分享一点经验，最主要的是能够做好学习笔记，方便日后的查看。NO.1 添加User-Agent池User-Agent是headers中的一个属性，表示当前访问服务器的...

2018-10-31 14:57:25 1450

原创迁移环境的模块方法介绍

关于迁移环境模块的使用日常开发过程中，相同的项目通常都会使用同一个虚拟环境，例如爬虫项目中使用的第三方库以及解释器，ChromeDriver都一样，没有必要再重新建立一个新的虚拟环境。只需要使用原来的虚拟环境即可。服务器上使用一个已经安装好的虚拟环境包是一个非常麻烦的事情。所以给大家介绍一个简便的复制虚拟环境包的方法。第一步：将已有的虚拟环境保重的库以及版本保存到一个文件中。pip f...

2018-10-31 10:43:54 532

转载反爬与反反爬策略

常见反爬虫策略知己知彼，百战不殆。我们想防止爬虫被 ban就得了解一些常见的反爬虫措施。但要反爬虫还得先识别爬虫，所以首先讲讲如何识别爬虫。方法1：http日志和流量分析，如果单位时间内某个IP访问频率和流量超过特定阈值就可以界定为爬虫。方法2：Headers参数检测Scrapy学习笔记(6)-反爬虫与反反爬虫策略上图是浏览器正常访问站点时发送的数据包，可以看到Request Head...

2018-10-31 08:51:23 1031

原创关于爬取图片链接的一些处理

日常的爬取数据时，对于一些图片以及网页url常常是不完整的。需要我们对其进行一些处理，保存完整的url到需要的文件中。这就需要我们对这些不完整的url进行补全的操作。下面分享一个用来处理不完整url的方法。from urllib.parse import urljoinurl = "/wcm.files/upload/CMSnq/201804/201804270445055.jpg"ne...

2018-10-30 16:25:18 1569

原创读取json文件报错:json.decoder.JSONDecodeError: Extra data: line 6 column 2 (char 1329)

读取json文件数据时，由于指定的json文件内包含多个json格式的数据，所以报错。解决方案:1、单行读取文件2、保存数据源的时候，格式写为一个对象。将多个json文件合并到一个json内即可。...

2018-10-30 09:37:01 28475

原创 selenium的安装和使用

selenium的安装selenium是一个浏览器为web自动化测试工具，原本是用来检测浏览器的。由于selenium可以控制浏览器，即用selenium打开的浏览器内容都可以通过特定的方式获取到。一般用于获取javaScript动态渲染的页面。第一步：安装python的selenium库pip install selenium第二步:选择要控制的浏览器.浏览器分为视图化浏览器（常用的...

2018-10-29 17:42:12 1222

原创 # GIt版本管理工具的使用

GIt版本管理工具的使用由于以前都是只负责使用工具的，对于一些工具以及基础模块的安装都存在盲区。立志要成为一个优秀的菜鸟，与大家共勉。git工具是用来记录代码的完善过程，方便查看代码版本。分享自己的安装过程，避免大家少走弯路。第一步下载地址：https://git-scm.com/download/win根据自己的电脑选择是32位的还是64位的。下载完后直接运行，之后一直next就好...

2018-10-29 11:35:57 141

mygodit的博客