python数据分析/挖掘
文章平均质量分 77
一名分析狮
这个作者很懒,什么都没留下…
展开
-
属于自己的Python爬虫思路
Python爬虫思路明确需求网络请求提取结构化数据数据存储后语Python爬虫思路楼主是属于非科班出生的半路编程杀手,这篇文章旨在记录个人在爬虫方面的心得,文字较多,代码较少,不足之处,请多多指教。不多BB,让我们进入正题:明确需求搜索引擎定向爬虫网络请求提取结构化数据数据存储明确需求明确需求的意思是你需要知道你的爬虫要做的事,楼主所接触到的分为两种:搜索引擎搜索引擎,故名思原创 2017-09-12 20:35:38 · 2319 阅读 · 0 评论 -
数据清洗(二)——缺失值处理
使用sklearn.preprocessing.Imputer类来填补缺失值本篇旨在记录 Imputer类的简单用法,不列举所有使用方法,知道怎么用Imputer类来填补缺失值就可以了。以数据集本身为基础填补缺失值import numpy as npfrom sklearn.preprocessing import Imputerx = np.array([[2, 2, 5, 4, 4,np.na原创 2017-11-16 11:28:04 · 2652 阅读 · 0 评论 -
Python关联分析之——Apriori算法
使用Apriori算法进行关联分析Apriori原理 如果某个项集是频繁的,那么它的所有子集也是频繁的。即如果{0,1}是频繁的,则{0},{1}也是频繁的。这个原理直观上并没有什么帮助,但如果反过来看,就有用了。 如果某个项集是非频繁的,那么它的所有超集也是非频繁的。即如果{0}也是非频繁的,则包含{0}的所有超集如{0,1}也是非频繁的。重要定义# 测试项集: [['豆奶',原创 2017-12-01 09:18:19 · 15630 阅读 · 0 评论 -
Python数据挖掘——决策树
sklearn中DecisionTree学习笔记参考博文:scikit-learn决策树算法类库使用小结sklearn中的决策树算法包含 DecissionTreeClassifier 和 DecissionTreeRegression ,二者的的用法基本相同。 不同的是: 回归决策树里面的Y值可以是浮点数;criterrion 参数值不同。sklearn.tree.DecisionTreeCla原创 2017-12-07 10:19:07 · 3253 阅读 · 0 评论 -
数据分析之——微信好友分析
itchat中午吃午饭的时候,无意间浏览到某公众号的一篇文章,是关于爬微信好友的。自从爬虫工程师转数据分析师以来,很久没玩过爬虫了,于是乎玩心一起,吃完饭之后自己便尝试起来。itchat 包,已经完成了wechat的个人账户API接口,使得获取个人微信信息更加方便。纯属好玩!!!itchat包的API列表安装 itchat在命令终端输入:pip install itchat登录导入包之后,调用log原创 2018-01-13 17:53:52 · 7710 阅读 · 2 评论 -
数据挖掘之特征工程(笔记)
特征工程在介绍特征工程之前,我们先看两张图。图一是基本的数据挖掘场景图二是特征工程的常见方法和步骤 特征工程(Feature Engineering)是数据挖掘模型开发中最耗时、最重要的一步。这里简单介绍笔者在模型开发中所总结的一些方法。特征也就是我们常常说的变量/自变量,一般分为三类:连续型无序类别(离散)型有序类别(离散)型特征工程(Feature E...原创 2018-02-28 11:02:00 · 4405 阅读 · 0 评论