数据挖掘 特征工程
Tanya_girl
小分析师一枚
展开
-
特征处理(一)
讲得浅显易懂的一篇文章,原文链接点击打开链接1、线性函数归一化(Min-Max scaling)2、0均值标准化(Z-score standardization)原创 2015-11-25 22:37:37 · 647 阅读 · 0 评论 -
R读书笔记之特征工程(一)空值处理
在特征处理中,会有空值的删除或者填充。一:删除 1一般删除是最简单的,用na.omit(data)就搞定,但是太粗暴了。 2若是有的观测量空缺值太多的话,确实需要删除,因为用别的方法填充反而会导致模型偏差。 那么肿么统计观测量的空值的个数捏?可以参考函数:apply(dataframe,1,function(x) sum(is.na(x))),其中is.na()返原创 2015-12-17 00:09:28 · 4313 阅读 · 1 评论 -
对pearson相关系数以及协方差矩阵的理解
之前一直从公式中理解,今天看到这个回答,用两个向量夹角余弦来理解感觉发现了新世界https://segmentfault.com/q/1010000000094674其二, 按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦.皮尔逊相关的约束条件从以上解释, 也可以理解皮尔逊相关的约束条件:1 两个变量间有线性关系2 变量转载 2016-12-19 21:45:50 · 5207 阅读 · 0 评论