自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据-攻城狮

从事大数据存储/计算/挖掘/分析等相关工作

  • 博客(4)
  • 收藏
  • 关注

原创 利用python代码处理redis数据库的高并发情况

问题由来:当我们在采集某一个网站的时候,由于url基数太大,想将其用分布式进行爬取,将所有的url放在同一个redis库中,然后利用多个相同的程序同时去取redis库中的url。(也可以直接使用scrapy_redis,博主这里是根据自己的需求重新定义的)# -*- coding: utf-8 -*-import redisimport time# 链接redis数据库redi...

2019-08-29 13:29:29 659

原创 python爬虫中用Tesseract识别图形验证码

图形验证码识别技术:阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在一定的技术壁垒(需要大量的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很高的商业价值...

2019-08-22 09:14:37 276

原创 linux下scrapy框架使用selenium报错easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help']

在linux服务器端使用selenium,然后让chrome谷歌浏览器无界面运行。报错如下:easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help']OSError=[Errno 2] No such file or directory: 'Xvfb': 'Xvfb'Program install error!...

2019-08-21 18:50:05 1809

原创 scrapy中数据采集出现乱码问题(低级错误)

问题:当使用scrapy进行数据采集时,前几个网站都可以正常采集,突然遇到一个网站不管如何改变数据的编解码格式都不管用。原因:很有可能是请求头设置错误。博主我就是在setting中设置了默认的请求头,导致数据解码错误。解决办法:删除setting中的默认请求头或者在当前的采集任务中设置特定的请求头。博主采用的是前者正常结果如下:完毕!...

2019-08-13 20:02:42 486

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除