数据挖掘
Deepin_L
这个作者很懒,什么都没留下…
展开
-
DataWhale数据挖掘-Task4&5
特征选择特征选取从文字、图像、声音等其他非结构化的数据中提取信息作为特征特征创造把现有的特征进行组合,或相互计算得到新的特征特征选择从所有的特征中,选择出有意义、对模型有帮助的特征,避免将所有的特征都导入到模型中选择特征的方法过滤法嵌入法包装法降维算法决策树决策树是一种有监督的方法,它能从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。剪枝在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有原创 2020-08-25 20:17:32 · 203 阅读 · 0 评论 -
DataWhale数据挖掘-Task3笔记
时间序列分解一个时间序列通常是几类变化形式的叠加或是耦合。包括长期趋势、循环波动、季节性变化和随机波动长期趋势T:指在较长时期内持续发展变化的一种趋向或状态循环波动C:不具严格规则的周期性连续变动季节波动S:指由季节的变化引起的变动随机波动I:偶然因素对时间序列造成的影响时间序列分解模型加法模型Yt=Tt+St+Ct+It{Y_t = T_t+S_t+C_t+I_t}Yt=Tt+St+Ct+It在加法模型中四种成分之间是相互独立的。乘法模型Yt=Tt∗St∗Ct∗原创 2020-08-24 22:18:57 · 214 阅读 · 1 评论 -
DataWhale数据挖掘-Task2笔记
基于周期因子的时间序列预测1、时间序列分析是根据过去的变化趋势来预测未来的发展。2、时间序列数据变动存在着规律性和不规律性趋势性周期性随机性综合性周期因子法提取时间序列的周期性特征进行预测预测 = 周期因子 * base获取周期因子的方法除以周均值,按列取中位数季节指数的计算方式,获取每日(工作日或周末)均值,再除以整体均值未待续...原创 2020-08-22 21:07:23 · 152 阅读 · 0 评论 -
DataWhale数据挖掘-Task1笔记
Q:数据处理-为什么要使用One-Hot在机器学习的模型需要的数据是数字类型的,而特征有时候不是连续值,可能是一些分类值,比如性别分为male和female。通常我们需要对这类特征进行特征数字化。One-Hot介绍One—Hot编码,又称为一位有效编码,主要使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候只有一位有效One—Hot使用Q:有如下的三个特征属性,有一个样本[“male”,“US”,“Internet Explorer”]使用One—Hot进行编码原创 2020-08-20 18:53:52 · 268 阅读 · 0 评论