网络爬虫开发实战
文章平均质量分 69
C01acat
这个作者很懒,什么都没留下…
展开
-
python爬取广西人才网招聘信息并可视化
对要爬取的数据进行分析要爬取的网页:https://s.gxrc.com/sJob?district=1&pageSize=20&orderType=0&listValue=1.html我们需要爬取的信息有9个维度,分别是:职位,名称,公司名称,薪资,工作地,更新时间,学历,经验,岗位要求。职位信息的爬取格式如上图所示,但是如果我们规定了某一个关键字(key)后,信息格式会变成会出现<span class='highlight>的标志,这样对数据的爬取有不小的限原创 2021-04-12 22:27:51 · 2681 阅读 · 1 评论 -
cmd运行spider all卡在“result_worker starting...”的一个解决方案
在确定各种包安装无误的情况下,cmd运行spider all 或者 spider 卡在result_worker starting...如上图所示,卡在这里不动。找了各种方法,都无果,最后我尝试性的又运行了一个spider all,奇迹般的出现了如我的红色箭头所示,出现这个意味着成功了,于是我赶紧关掉了另一个cmd,发现该cmd继续运行下去,最后出现了 webui running on 0.0.0.0:5000打开 localhost:5000 也成功了。我的环境是python3.8。经过我的原创 2020-09-05 13:54:06 · 1640 阅读 · 0 评论 -
pip无法正常安装tesserocr pillow的一个可行的解决方案
网上很多方法都说是没安装VS库导致的错误,但是实际情况并非是vs的问题,我找了大部分网站,终于找到了一个可行的解决方案。既然安装不上tesserocr,那咱们就换一个安装,安装这个库即可:pyteseract第一步安装tesseract-ocr-w64-setup-v5.0.0.20190623.exe 。下载地址安装的时候要注意选择Additional language data (download),这里没有科学上网的同学会出错,那建议去直接下载语言包本地安装。第二步确定第一步成功.原创 2020-08-30 15:07:03 · 604 阅读 · 0 评论