- 博客(13)
- 收藏
- 关注
原创 数据挖掘建模--时间序列分析
数据挖掘建模–时间序列分析时间序列分析可以处理按照时间序列排序数据并预估出未来数据。要对时间序列进行分析需要首先确定时间序列分布函数,但取得困难,退而求用计算时间序列的特征统计量(低阶距)来研究时间序列性质。pip install pmdarima特征统计量均值、方差、自协方差、自相关系数自协方差 :同一个事件在两个不同时刻的关系r(t,s) = E[(Xt-μt)(Xs-μs)]自相关系数:同一个事件在两个不同时刻的关系ρ(t,s) = r(t,s)/(根号D(Xt)*根号D(Xs))=E
2020-05-27 23:05:38 1643
原创 数据挖掘建模---5.模型设计
数据挖掘建模—5.模型设计1.调节正负样本的权重参数2.更换模型算法3.同时几个使用模型进行预测,然后预测最终结果4.使用原数据,生成新特征5.调整模型参数
2020-05-25 22:51:30 263
原创 数据挖掘建模---3.特征工程
数据挖掘建模—3.特征工程3.1数值型特征数值变换和多项式变换1.log变换:由于数值型字段会有较大跨度,如最小值1最大值9999,不利于统计,需要对数值型特征进行指数变化即log变化,可以让特征和目标变量之间关系更接近线性,提供预测效果import numpylog_age = df_train[‘Age’].apply(lamda x:np.log(x))df_train.loc[:,‘log_age’] = log_age2.最大最小归一化MinMaxScaler[ X-min(x)]
2020-05-25 21:54:59 357
原创 数据挖掘建模--过拟合、欠拟合
数据挖掘建模–过拟合、欠拟合为了防止模型过拟合、欠拟合主要有以下几种方法:1、正则化项:给损失函数加一个参数项,主要有L1、L2、ElasticNet。加入正好化项主要是为了控制参数幅度,防止模式发展太恣意。...
2020-05-25 19:53:14 451
原创 数据挖掘建模--处理数据不平衡
数据挖掘建模–处理数据不平衡权重法和采样法权重法:对训练集中每个类别加一个权重,如果类别样本的数量多权重低,样本数量少权重高采样法:对类别样本多的样本做子采样直到与类别样本少的数量一致,将子采样与其他类别采样一起做训练集拟合模型。或者对类别少的样本做过采样,直到与类别多的采样一致后做拟合模型...
2020-05-25 19:26:26 402
原创 数据挖掘建模--4性能度量与评估
数据挖掘建模–性能度量与评估之混淆矩阵模型性能度量与评估是建模过程中必做的自我检测模型预测准确率的方式,不同模型算法的问题需要使用不同的评估方法。1.分类问题评估方法准确率 Accuracy精确率 precision召回率 RecallF1_score2.混淆矩阵真正例 TP:真实类别为正例,预测类别为正例;假正例 FP:真实类别为负例,预测类别为正例;假负例 FN:真实类别为正例,预测类别为负例;真负例 TN:真实类别为负例,预测类别为负例;| 实际值 |Positive |N
2020-05-25 17:25:25 523
原创 数据挖掘建模---1.数据预处理
这里写自定义目录标题特征工程-数据预处理缺失值替换数值型特征数值变换和多项式变换字符型特征特征工程-数据预处理特征工程前需要对拿到手的数据进行预处理,缺失值是其中操作比较多是方式主要有一下几种方式:缺失值替换有缺失值列会影响模型质量,拿到数据后通常会先预处理数据集,当查看拿到手的数据集df_train.head()/df_train.shape/df_train.describe()/df_train.info(),发现有缺失项,对于缺失值较多的列可以提供给模型信息有限,可以舍弃该列属性,对部分缺失
2020-05-22 18:39:02 2290
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人