![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
spring小郭
这个作者很懒,什么都没留下…
展开
-
python数据挖掘建模决策树
决策树 决策树方法在分类、预测、规则提取等领域有着广泛应用。20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinlan提出了ID38算法以后,决策树在机器学习、数据挖掘领域得到极大的发展。Quinlan 后来又提出了C4.5,成为新的监督学习算法。1984年, 几位统计学家提出了CART分类算法。ID3和CART算法几乎同时被提出,但都是采用类似的方法从训练样本中学习决策树。 决策树是一树状结构,它的每-一个叶 节点对应着-一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的原创 2020-08-25 23:06:26 · 286 阅读 · 0 评论 -
Task05:数据挖掘之建模预测
Task05:建模预测 1. 线性回归模型 线性回归对于特征的要求: 特征符合线性行和可加性。假设因变量为Y,自变量为X1,X2,则回归分析的默认假设为Y=b+a1X1+a2X2+ε。 线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。可加性:X1对Y的影响是独立于其他自变量(如X2)的特征之间应相互独立。 理解线性回归模型 线性回归五大假设: 1)线性性 & 可加性, 2)误差项(ε)之间应相互独立, 3)自变量(X1,X2)之间应相互独立, 4)误差项(ε)的方差应为常原创 2020-08-24 22:54:49 · 266 阅读 · 0 评论 -
04、特征工程
Task04:特征工程 特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。特征工程在机器学习中占有非常重要的作用,一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦,需要一定的经验。 特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一原创 2020-08-23 21:33:26 · 182 阅读 · 0 评论 -
数据挖掘时间序列模型
Task03:时间序列模型 对某一个或一组变量x(t)进行观察测量,将在一系列时刻t1, t2, …, tn (t为自变量)按照时间次序排列,并用于解释变量和相互关系的数学表达式。<t2<…< tn="" )="" 所得到的离散数字组成序列集合x(t1),="" x(t2),="" …,="" x(tn),我们称之为时间序列。 时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。 ARM原创 2020-08-22 22:27:48 · 578 阅读 · 0 评论 -
02:时间序列规则
Task02:时间序列规则 时间序列法是一种统计分析方法,在宣传工作中根据一定时间的数据序列预测未来发展趋势的方法。亦称时间序列趋势外推法。这种方法适用于处于连续过程中的事物的预测。它需要有若干年的数据资料,按时间序列排列成数据序列,其变化趋势和相互关系要明确和稳定。 针对周期因子的优化 按列提取中位数是一种简单而有效的提取周期因子的方法。中位数十分鲁棒,不受极端值的影响。但中位数损失了很多信息。实践中,可以在此基础上进一步优化。比如可以提取一个均值和一个中位数,然后将均值和中位数融合。融合的比例按照测试集原创 2020-08-21 20:56:15 · 541 阅读 · 0 评论 -
基于python数据分析
Task01:数据探索与分析 1、数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要–环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括如下内容。 口、缺失值。 异常值。 不一致的值。 重复数据及含有特殊符号(如#、¥、*)的数据。 2、缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段原创 2020-08-20 21:33:38 · 768 阅读 · 0 评论