数据挖掘
文章平均质量分 72
从数据中挖掘有价值的信息
爱问西瓜爱大树
这个作者很懒,什么都没留下…
展开
-
过拟合的含义、出现原因及解决方案
含义出现原因解决方案原创 2020-12-22 14:40:10 · 1077 阅读 · 0 评论 -
标准化和归一化理解
标准化:目的是为了统一不同特征之间的量纲。比如100分制和5分制归一化:对原始数据进行线性变换把数据映射到[0,1]之间,提高迭代求解的收敛速度归一化:对数据的数值范围进行特定缩放,但不改变其数据分布的一种线性特征变换。1.min-max 归一化:将数值范围缩放到(0,1),但没有改变数据分布;z-score 归一化:将数值范围缩放到0附近, 但没有改变数据分布;标准化:对数据的分布的进行转换,使其符合某种分布(比如正态分布)的一种非线性特征变换。常用的方法是z-score标准化,经过处理后原创 2020-08-25 11:42:09 · 1970 阅读 · 0 评论 -
一元线性回归原理及python简单实现
一元线性回归(一)----简单线性回归与最小二乘法原创 2020-07-29 11:22:06 · 2577 阅读 · 0 评论 -
香农熵概念理解
又名信息熵。用来描述不确定事件的不确定程度,是随机变量不确定度的度量。随机变量不确定度越大,熵越大;反之越小。原创 2020-12-16 15:04:52 · 6098 阅读 · 0 评论 -
pandas填充缺失值
将dataframe中的NAN值进行填充,填充方法如下:用0填充:df.fillna(0)用字符串填充:df.fillna("missing")用前一个数据填充:df.fillna(method="pad")用后一个数据代替NaN:df.fillna(method="bfill")limit参数限制每列可以替代NaN的数目,例如限制每列只能替代一个NaNdf.filln...原创 2019-10-08 17:06:26 · 1307 阅读 · 3 评论 -
残差平方和(RSS)、均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)
讲述几个评估标准的概念和不同原创 2019-10-08 16:40:41 · 38733 阅读 · 0 评论 -
聚类分析原理(及Python实现K-means代码详解)
#coding=utf-8 2 from numpy import * 3 4 def loadDataSet(fileName): 5 dataMat = [] 6 fr = open(fileName) 7 for line in fr.readlines(): 8 curL...原创 2018-12-30 18:56:41 · 4673 阅读 · 4 评论