爬虫
kevin_olina
这个作者很懒,什么都没留下…
展开
-
PhantomJS的安装
PhantomJS的安装1.phantomJS是一个无界面的,可脚本变成的webkit浏览器引擎,它支持多种Web标准:DOM操作,CSS原则器,json、Canvas以及SVG.2.Selenium支持PhantomJS,这样在运行的时候就不会再弹出一个浏览器了。3.下载PhatomJS: http://phantomjs.org/download.html4.解压之后将它的bin目录...原创 2019-04-27 22:09:11 · 264 阅读 · 0 评论 -
Beautiful Soup的安装
Beautiful Soup的安装Beautiful Soup是python的一个HTML或者XML的解析库,我们可以用来方便的从网页中提取数据。它拥有强大的API和多样的解析方式。1.Beautiful Soup依赖于lxml库。2.安装pip3 install lxmlpip3 install beautifulsoup43.验证安装是否成功,能运行出Hello结果,表明安装成功...原创 2019-04-28 20:57:23 · 200 阅读 · 0 评论 -
tesserocr的安装
tesserocr的安装1.OCR,即Optical Character Recognition,光学字符识别,通过扫描字符翻译成电子文本的过程,然后爬虫将是被结果提交给服务器,达到识别验证码的过程。2.tesserocr是python的一个OCR识别库,但是它是对tesseract做的一层Python API封装,核心是tesseract。要先安装tesseract。3.tesseract...原创 2019-04-28 21:25:42 · 203 阅读 · 0 评论