数据挖掘思路及实践
努力是一种幸运
数理统计、数据挖掘、机器学习
展开
-
数据挖掘中的预处理——以电信客户流失问题为例
数据预处理Step1:数据采样:由于在建立客户流失模型过程中,流失客户往往占所有客户人群的比例很小,这时,最好的办法是保留真个流失客户人群,而对非流失客户人群进行采样,使得客户流失与非客户流失人群在1:1~1:2Step2:数据探索(缺失值和异常值)Step3:创建缺失变量指示器;对于每一个缺失变量,值缺失时,令值为1,没有缺失时,令其为0,即创建了对应的缺失变量Step4:对样本原创 2016-05-22 09:06:09 · 5633 阅读 · 0 评论 -
用SPSS做数据分析时遇到的几个小问题——解决方法!
1.把excel数据导入SPSS中之后总是丢失小数,现在需要保留2位小数通常spss读入xls的数据通常第一行是变量名,数据格式都是默认第一条数据(第二行)格式,把第二行的数据小数点设置好,后面就都默认了。2.在SPSS中做多个因素的方差分析时,为什么确定按钮用不了多变量方差分析,至少添加2个“因变量”才能运算,下面的“固定因子”添加1个就是“多变量单因素方差分析”,添加多个就是“多变原创 2016-05-23 17:30:06 · 37475 阅读 · 0 评论 -
数据挖掘含义及过程
现在市面上销售的移动电话和智能手机均带有三轴磁力计,智能手机还有操作系统,可以运行编写的应用软件,十几行代码就可以让手机按照每秒上百次的频率读取磁力计的数据。除此之外,智能手机还封装了很多其他传感器,如偏航率陀螺仪、三轴加速计、温度传感器和GPS接收器,这些传感器都可以用于测量研究,比如地震预测。移动计算和传感器产生的海量数据意味着未来我们将面临着越来越多的数据,如何从海量数据中抽取到有价值的原创 2016-05-26 10:43:05 · 1818 阅读 · 0 评论 -
数据挖掘中的特征选择问题
特征工程包括特征选择和特征提取。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法:①计算每一个特征与响应变量的相关性:计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MI原创 2016-05-22 11:09:44 · 3855 阅读 · 0 评论