2019年08月_小獾哥

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创利用python代码处理redis数据库的高并发情况

问题由来：当我们在采集某一个网站的时候，由于url基数太大，想将其用分布式进行爬取，将所有的url放在同一个redis库中，然后利用多个相同的程序同时去取redis库中的url。（也可以直接使用scrapy_redis,博主这里是根据自己的需求重新定义的）# -*- coding: utf-8 -*-import redisimport time# 链接redis数据库redi...

2019-08-29 13:29:29 659

图形验证码识别技术：阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别（Optical Character Recognition），简写为OCR。实现OCR的库不是很多，特别是开源的。因为这块存在一定的技术壁垒（需要大量的数据、算法、机器学习、深度学习知识等），并且如果做好了具有很高的商业价值...

2019-08-22 09:14:37 276

原创 linux下scrapy框架使用selenium报错easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help']

在linux服务器端使用selenium，然后让chrome谷歌浏览器无界面运行。报错如下：easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help']OSError=[Errno 2] No such file or directory: 'Xvfb': 'Xvfb'Program install error!...

2019-08-21 18:50:05 1809

原创 scrapy中数据采集出现乱码问题（低级错误）

问题：当使用scrapy进行数据采集时，前几个网站都可以正常采集，突然遇到一个网站不管如何改变数据的编解码格式都不管用。原因：很有可能是请求头设置错误。博主我就是在setting中设置了默认的请求头，导致数据解码错误。解决办法：删除setting中的默认请求头或者在当前的采集任务中设置特定的请求头。博主采用的是前者正常结果如下：完毕！...

2019-08-13 20:02:42 486

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

大数据-攻城狮

原创利用python代码处理redis数据库的高并发情况

原创 python爬虫中用Tesseract识别图形验证码

原创 linux下scrapy框架使用selenium报错easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help']

原创 scrapy中数据采集出现乱码问题（低级错误）

空空如也

空空如也

原创 利用python代码处理redis数据库的高并发情况

原创 python爬虫中用Tesseract识别图形验证码

原创 linux下scrapy框架使用selenium报错easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help']

原创 scrapy中数据采集出现乱码问题（低级错误）

空空如也

空空如也

原创利用python代码处理redis数据库的高并发情况