- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 我要爬爬虫(11)-用selenium爬取淘宝商品信息
思路就是用selenium操作浏览器,访问淘宝,输入关键词,查找,用pyquery解析目标信息,翻页,存储到mongodb. 函数定义三个: 1 打开浏览器,查找初始化,翻页 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support....
2018-08-17 17:03:47 550
原创 win10非anaconda的tesserocr安装
对于没使用anaconda的我,是这样安装tesserocr的。 首先安装tesseract,在https://digi.bib.uni-mannheim.de/tesseract/里找到非dev的稳定版本,对应py3.5的tesseract-ocr-setup-3.05.01-20170602.exe。 双击安装后,选择additional language data(download)支持...
2018-08-17 14:02:06 486
原创 Win10家庭版安装Docker和splash
我的系统是win10家庭版,没有专业版自带的hyper-v虚拟机服务,所以只能使用dockertools和virtualbox的组合。 1 在Docker官网找到最新版本的dockertool 提示要先登录再下载,所以要注册登录一下,这里需要翻墙验证,不然按钮无法点击。 下载完毕后双击安装都没问题,最后一步提示是否安装硬件,要选择安装,不然就会安装失败。 主要操作在Docker qui...
2018-08-15 03:47:39 3739 3
原创 我要爬爬虫(10)-selenium使用
selenium是一个自动化测试工具,之前实现自动购票的时候就用过,这里再学一遍。就是驱动浏览器执行操作,比如点击,输入,拖拽等等。 selenium下有对应很多浏览器的webdriver,例如 browser=webdriver.Chrome()#这里只要实例化,就会打开指定的浏览器 这样就实例化一个chrome浏览器对象。 然后请求网页,获取源代码。 browser.get('htt...
2018-08-14 00:33:39 313
原创 我要爬爬虫(9)-Ajax数据爬取
很多网页的源代码和其实际的展示效果不一样,是因为有两段请求,除了我们向服务器发送的请求,还有该页面发送的ajax请求,是它把简单的原网页渲染成展示出来的效果。我们的目的就是实例化这个请求。 ajax请求的类型为xhr。 referer:ajax 请求的发送者 X-Request-With:XMLHttpRequest 这个属性标记该请求为ajax请求。 import requests fr...
2018-08-13 20:47:34 391
python demo
2018-03-14
ubuntu系统中import h5py, ImportError: No module named h5py的解决方法
2017-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人