2018年08月_千语_肉丸子

11月 10月 09月 08月 07月 06月 05月 04月 01月

原创 python抓取京东历史促销信息并做统计分析的学习笔记

参考链接：http://www.sohu.com/a/214617344_654419github链接： https://github.com/hscheng/python参考博文和github均有详细代码，本文记录自己学习过程，初始链接：https://www.jd.com/moreSubject.aspx，分析网页内容，标红的页面开始是没有的，多点几个页面就会出现打开链接出...

2018-08-23 19:10:05 1460

原创 jieba分词出现如下错误：AttributeError: 'float' object has no attribute 'decode'

在利用结巴（jieba）进行分词时出现如下错误，AttributeError: 'float' object has no attribute 'decode': 真实挺无语的，当读取编码为utf8时不会报错，当读取为gbk时会报这类错误，这个可以解决很多此类型的错误。原始内容：def cutword(x): seg = jieba.cut(x) #结巴分词函数 ...

2018-08-15 19:48:01 42683 3

原创 python爬虫代理学习笔记

当同一ip短时间内多次链接同一网站，很可能导致ip被封，为了避免远程服务器封锁IP，或者想加快爬取速度，一个可行的方法就是使用代理IP，我们需要做的就是创建一个自己的代理IP池。思路1.从代理网站爬取IP地址及端口号并存储（以西刺代理为例）2.验证ip能否使用并将能使用的IP和端口号存储起来3.从代理池中随机选择一个IP进行爬去验证具体实现1.爬取代理fr...

2018-08-14 23:08:13 267

原创利用selenium+PhantomJs/Chrome爬取医疗网站医院信息学习笔记

今天学习爬取一个医疗网站的医院数据，html页面有属性和标签,返回的请求也有属性和标签，但是用BS\re等均匹配不到数据，简直是无语了，后来通过查找资料发现页面被JS渲染了，利用普通的规则是无法获取数据的，但phantomjs很好的解决了这个问题。 PhantomJS 是一个基于WebKit的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速...

2018-08-10 14:19:33 1992

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 python抓取京东历史促销信息并做统计分析的学习笔记

原创 jieba分词出现如下错误：AttributeError: 'float' object has no attribute 'decode'

原创 python爬虫代理学习笔记

原创 利用selenium+PhantomJs/Chrome爬取医疗网站医院信息学习笔记

空空如也

空空如也

原创利用selenium+PhantomJs/Chrome爬取医疗网站医院信息学习笔记