数据分析的一般流程

沐岩:)

于 2023-01-29 09:06:25 发布

阅读量267

点赞数

分类专栏：学习笔记文章标签：数据分析 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jkjgj/article/details/128784241

版权

学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

大三学过《数据科学编程Ⅱ》这门课，主要介绍了大数据分析的一些基本方法和流程，在这里总结一下。

一、机器学习任务分类

基于问题类型

分类问题： 逻辑回归、KNN、决策树、支持向量机、BP神经网络
回归问题： 线性回归、多项式回归、KNN、决策树、支持向量机、BP神经网络
聚类问题： k-means
关联学习(Association learning)： 在实例发现某些固定模式和规律
降维问题： PCA主成分分析、相关系数法、决策树熵权法

基于解决策略

有监督学习（Supervised）
无监督学习（Unsupervised）
半监督学习（Semi-supervised）： 将数据集部分标注，比如在识别问题中，对部分数据进行标注，可能会提高识别的准确率。
强化学习（Reinforcement）

二、数据预处理（Data Preprocessing）

特征工程在机器学习过程中占据重要地位，甚至比训练和调参更加重要，它决定了训练的整体效果。

1. 查看基本信息

data.info()可以查看特征类型、缺失值、数据量等情况。
data.describe()可以查看数值类型的均值、数据大致分布等情况。

2. 处理缺失值

drop相关的行/列
用均值/众数/向前/向后等填充

3. 查看数据分布、诊断离群值

使用直方图(hist)查看数据分布，删除分布极端的列
使用箱线图查看离群值，删除或转换成合理最大值

4. 查看相关系数

删除相关系数过高的列（目标列除外）

5. 处理不平衡数据集

常用方法有：
（1）采集更多数据，最后选取平衡数量的数据。
（2）重采样，减少大类的数据，增加小类的数据（甚至可以重复取样）。
（3）人为生成小类的数据。
（4）细分类，将大类的数据再细分为几个小类，使每个类别数据平衡。

6. 归一化

Normalizing/Min-max scaling： 将数据归一至（0，1）之间。
Standardization scaling： 将数据归一至（-1，1）之间。

7. 独热编码转换（One-hot coding）

经过多次尝试，我发现对于非数值类型的列，进行独热编码比直接map([1,2,3] --> ['a','b','c'])效果要好

8. 特征选择、降维

PCA主成分分析
对目标列的相关系数排序
决策树特征重要性提取（熵权法）
利用聚类降维：将特征转换为每个点到每个类中心点的距离
通过正则化增加 $\lambda$ ，根据使正则化项趋于零的顺序，进行特征排序

9. 分割数据集

2. 数据训练与调参（Data Training）

网格搜索
交叉验证

3. 效果评价（Evaluation）

分类问题： 基于混淆矩阵（Confusion matrix）进行评价，主要指标有accuracy、、precision、recall、f1 score、ROC、AUC等
回归问题： MAE、MSE

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析的一般流程

大三学过《数据科学编程Ⅱ》这门课，主要介绍了大数据分析的一些基本方法和流程，在这里总结一下。
复制链接

扫一扫

专栏目录

沐岩:) CSDN认证博客专家 CSDN认证企业博客

码龄5年

20: 原创

109万+: 周排名

6万+: 总排名

3万+: 访问

: 等级

341: 积分

64: 粉丝

123: 获赞

6: 评论

265: 收藏

私信

关注

热门文章

分类专栏

学习笔记 11篇

最新评论

Kaggle数据集-贷款逾期预测
m0_60247251: https://www.kaggle.com/datasets/yasserh/loan-default-dataset/discussion/522084，kaggle网站上的discussion里有人列出来了
Ubuntu部署Ceph
于怀_: 解决了吗？我也是。
Ubuntu部署Ceph
qq_43251170: 最后还是有个地方报错了，就是在启动对象存储时，一直无法启动。日志显示rgw main: rgw_init_ioctx ERROR: librados::Rados::pool_create returned (34) Numerical result out of range (this can be due to a pool or placement group misconfiguration, e.g. pg_num < pgp_num or mon_max_pg_per_osd exceeded)。但是我已经把mon_max_pg_per_osd 改成1000、3000、甚至30000都不行，还是报错。博主大大知道为啥吗？
Ubuntu部署Ceph
qq_43251170: 跟着博主做了一遍，直接成功！感谢！在部署过程中遇到两个问题，记录一下。一是报warn：health_warn：clock skew detected on mon。这个在ceph.conf配置文件的global字段里面添加mon clock drift allowed = 2 mon clock drift warn backoff = 30即可，调整时间偏差阈值二是开启dashboard报错all mgr daemons do not support module ‘dashboard’，只需要在ceph-mgr master节点执行命令apt install ceph-mgr-dashboard，然后再开启dashboard即可
Kaggle数据集-贷款逾期预测
Xyzs0v0: 有每个分类字段以及字段内各取值的具体解释吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。