零基础入门数据挖掘

最新推荐文章于 2024-08-13 11:37:57 发布

网站不知名写手柠乐同学

最新推荐文章于 2024-08-13 11:37:57 发布

阅读量1k

点赞数

分类专栏：笔记文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kyra1997/article/details/105148705

版权

笔记专栏收录该内容

69 篇文章 5 订阅

订阅专栏

赛题背景

回归题型，针对二手车价格进行预测

赛题数据

主要是用来信息脱敏，平台下载

评估指标

对于模型效果数值量化。类似于商品打分，而针对与模型效果和理想效果之间的打分。

分类算法的评估指标

对于二分类器/分类算法，评价指标主要有accuracy，[Precision,Recall,F-score,Pr曲线]，ROC-AUC曲线

对于多种分类器/分类算法，评价指标主要有accuracy，[宏平均和微平均，F-score]。

对于回归预测常见的评估指标如下：

平均绝对误差，均方误差，平均绝对百分误差，均方根误差，R2拟合优度。

分析赛题

数据挖掘问题通过数据科学以及机器学习深度学习的办法来进行建模得到的结果。
主要应用xgb、lgb、catboost以及panda、numpy、matplotilb、seabon、sklearn，keras等，通过EDA来挖掘数据的联系和自我熟悉数据

代码示例

利用panda读取
读取pandas库命名为pd
读取numpy库命名为np
采用15万样本量31维度
采用5万样本量30维度

分类指标
采用sklearn.metrics,读取accuracy_score
样本[0， 1，0，1]
真实值[0, 1, 1, 1]
输出
回归指标
采用均方误差和拟合优度方式对真实值和样本评估

基础工具

库的导入

numpy, pandas, warnings,matplotlib,seaborn,scipy,ipython.display,time

数据读取

主要数据浏览，数据名称浏览，关注类别异常，train和tastA的数据分布

特征标签

提取数值类型特列名称，构建训练和测试样本，做特征筛选和数据预处理以及数据逻辑。缺省值用填补属于概率统计里面的知识，通过两个模块训练预测第三块，取均值。

定义xgb和lgb模型函数

列表与运行最优选择。

切分数据集

划分训练集合和测试集合，model标签是模型，val是预测情况，规则和标准差体现出问题。

模型融合

采取加权融合的方式，权重maelgb与maexgb预测出的值进行处理，发现最小值并验证误差，提交的权重加权，并输出。

探索性分析

1、数据表达
2、挖掘数据结构
3、锁定重要特征
4、探索异常数据
5、选择使用合适的模型

绘图法

规律和图形分析

时序图

便于观察数据，如是否具有周期性、震荡幅度

直方图

便于观察数据分布

密度曲线图

可以理解为概率密度函数

箱型图

便于查看数据异常，以及不同数据间分布的对比

小提琴图

相当于进阶版箱型图，可以看出某个值附近分布的频率

量化方法

统计分布，方差，范围

相关性分析方法

1、定类变量：名义型变量；性别
2、定序变量：不仅分类，还按某种特性排序；量值的差无意义；教育程度
3、定距变量：可比较大小。
定类与定类——卡方
定类与定序——卡方
定类与定距——Eta序数
定序与定序——相关系数、同序与异序对测量
定序与定距——spearman相关系数
定距与定距——Pearson相关系数

独立性分析

变量间无线性相关性，还可能存在非线性关联。（概率统计知识点条件概率）

网站不知名写手柠乐同学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。