自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器学习、数据挖掘

机器学习、数据挖掘

  • 博客(4)
  • 收藏
  • 关注

原创 python抓取京东历史促销信息并做统计分析的学习笔记

参考链接:http://www.sohu.com/a/214617344_654419github链接: https://github.com/hscheng/python参考博文和github均有详细代码,本文记录自己学习过程,初始链接:https://www.jd.com/moreSubject.aspx,分析网页内容,标红的页面开始是没有的,多点几个页面就会出现打开链接出...

2018-08-23 19:10:05 1460

原创 jieba分词出现如下错误:AttributeError: 'float' object has no attribute 'decode'

在利用结巴(jieba)进行分词时出现如下错误,AttributeError: 'float' object has no attribute 'decode': 真实挺无语的,当读取编码为utf8时不会报错,当读取为gbk时会报这类错误,这个可以解决很多此类型的错误。原始内容:def cutword(x): seg = jieba.cut(x) #结巴分词函数 ...

2018-08-15 19:48:01 42683 3

原创 python爬虫代理学习笔记

       当同一ip短时间内多次链接同一网站,很可能导致ip被封,为了避免远程服务器封锁IP,或者想加快爬取速度,一个可行的方法就是使用代理IP,我们需要做的就是创建一个自己的代理IP池。思路1.从代理网站爬取IP地址及端口号并存储 (以西刺代理为例)2.验证ip能否使用并将能使用的IP和端口号存储起来3.从代理池中随机选择一个IP进行爬去验证具体实现1.爬取代理fr...

2018-08-14 23:08:13 267

原创 利用selenium+PhantomJs/Chrome爬取医疗网站医院信息学习笔记

      今天学习爬取一个医疗网站的医院数据,html页面有属性和标签,返回的请求也有属性和标签,但是用BS\re等均匹配不到数据,简直是无语了,后来通过查找资料发现页面被JS渲染了,利用普通的规则是无法获取数据的,但phantomjs很好的解决了这个问题。      PhantomJS 是一个基于WebKit的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速...

2018-08-10 14:19:33 1992

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除