- 博客(4)
- 收藏
- 关注
原创 利用python代码处理redis数据库的高并发情况
问题由来:当我们在采集某一个网站的时候,由于url基数太大,想将其用分布式进行爬取,将所有的url放在同一个redis库中,然后利用多个相同的程序同时去取redis库中的url。(也可以直接使用scrapy_redis,博主这里是根据自己的需求重新定义的)# -*- coding: utf-8 -*-import redisimport time# 链接redis数据库redi...
2019-08-29 13:29:29 659
原创 python爬虫中用Tesseract识别图形验证码
图形验证码识别技术:阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在一定的技术壁垒(需要大量的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很高的商业价值...
2019-08-22 09:14:37 276
原创 linux下scrapy框架使用selenium报错easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help']
在linux服务器端使用selenium,然后让chrome谷歌浏览器无界面运行。报错如下:easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help']OSError=[Errno 2] No such file or directory: 'Xvfb': 'Xvfb'Program install error!...
2019-08-21 18:50:05 1809
原创 scrapy中数据采集出现乱码问题(低级错误)
问题:当使用scrapy进行数据采集时,前几个网站都可以正常采集,突然遇到一个网站不管如何改变数据的编解码格式都不管用。原因:很有可能是请求头设置错误。博主我就是在setting中设置了默认的请求头,导致数据解码错误。解决办法:删除setting中的默认请求头或者在当前的采集任务中设置特定的请求头。博主采用的是前者正常结果如下:完毕!...
2019-08-13 20:02:42 486
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人