爬虫
淼素
这个作者很懒,什么都没留下…
展开
-
爬虫遇到的问题以及解决办法
最近由于工作需要开始接触爬虫,作为一个小白,真的是像个屋头苍蝇,下面主要是针对我自己遇到的问题以及解决办法做一下记录。。。①登录网页:包含用户名、密码、验证码,获取cookie网页源码格式:<script type=text/javascript src=static/js/manifest.37a2ecbb1d1b7e6c9ada.js></script>...原创 2019-07-12 17:30:54 · 3546 阅读 · 0 评论 -
selenium模拟登陆截屏保存验证码
上一篇文章讲到用selenium模拟登陆界面,然后人工输入验证码,这样增加了人的工作量,增加了处理时间,并且可能验证码输入错误,下面我通过截取验证码部分,然后通过图片识别方式获取验证码信息。首先是截取当前的登陆界面,然后定位到验证码的位置截取验证码图片。我遇到的问题是相同的位置,有时候会遇到截取的图片没有验证码、者验证码模糊不清楚、验证码很小等问题。查找之后发现是截屏时,页面没有显示完全导致的...原创 2019-07-15 11:39:43 · 890 阅读 · 0 评论 -
scrapyinghub 部署爬虫项目
最近在学习scrapy爬虫,在将项目部署到scrapyinghub上时,出现问题。。。在执行scrapy deploy projectId显然是版本不匹配,导致包不能识别。只需要对scrapinghub.yml文件添加https://support.scrapinghub.com/support/solutions/articles/22000200387-deploying-py...原创 2019-08-29 15:48:29 · 519 阅读 · 0 评论 -
scrapy框架爬虫部署到scrapyinghub上报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 110
python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 110: illegal multibyte sequence把要导入的模块写在requirements.txt文档中,比如:bs4==0.0.1pandas==0.19.2selenium==3.141.0request...原创 2019-09-02 11:06:18 · 439 阅读 · 0 评论