- 博客(4)
- 收藏
- 关注
原创 python抓取京东历史促销信息并做统计分析的学习笔记
参考链接:http://www.sohu.com/a/214617344_654419github链接: https://github.com/hscheng/python参考博文和github均有详细代码,本文记录自己学习过程,初始链接:https://www.jd.com/moreSubject.aspx,分析网页内容,标红的页面开始是没有的,多点几个页面就会出现打开链接出...
2018-08-23 19:10:05 1460
原创 jieba分词出现如下错误:AttributeError: 'float' object has no attribute 'decode'
在利用结巴(jieba)进行分词时出现如下错误,AttributeError: 'float' object has no attribute 'decode': 真实挺无语的,当读取编码为utf8时不会报错,当读取为gbk时会报这类错误,这个可以解决很多此类型的错误。原始内容:def cutword(x): seg = jieba.cut(x) #结巴分词函数 ...
2018-08-15 19:48:01 42683 3
原创 python爬虫代理学习笔记
当同一ip短时间内多次链接同一网站,很可能导致ip被封,为了避免远程服务器封锁IP,或者想加快爬取速度,一个可行的方法就是使用代理IP,我们需要做的就是创建一个自己的代理IP池。思路1.从代理网站爬取IP地址及端口号并存储 (以西刺代理为例)2.验证ip能否使用并将能使用的IP和端口号存储起来3.从代理池中随机选择一个IP进行爬去验证具体实现1.爬取代理fr...
2018-08-14 23:08:13 267
原创 利用selenium+PhantomJs/Chrome爬取医疗网站医院信息学习笔记
今天学习爬取一个医疗网站的医院数据,html页面有属性和标签,返回的请求也有属性和标签,但是用BS\re等均匹配不到数据,简直是无语了,后来通过查找资料发现页面被JS渲染了,利用普通的规则是无法获取数据的,但phantomjs很好的解决了这个问题。 PhantomJS 是一个基于WebKit的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速...
2018-08-10 14:19:33 1992
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人