数据清洗---占据了数据分析师80%的时间

本文以制作披萨的过程类比数据分析流程,从数据生成、收集、预处理到模型训练和评估,详细阐述数据清洗的重要性。强调数据质量对模型效果的影响,并提出数据清洗的“完全合一”原则:完整性、全面性、合法性、唯一性。同时,给出处理缺失值、单位转换、非ASCII字符、重复记录的具体方法,以及如何拆分和删除重复数据,以实现数据的规范化和高质量。
摘要由CSDN通过智能技术生成

以点一份披萨为例,讲清数据分析全流程

01播种

农场的西红柿提供了披萨的配料,在农场播种西红柿种子。这就相当于数据生成过程,比如用户操作,触发传感器,前端埋点等。

02收获

采摘成熟的西红柿。这就相当于数据收集,将用户的交互行为记录为实际数据。友盟等就提供了第三方的埋点支持。

03运输

西红柿被运往目的地。这就相当于数据被存储在数据库或数据湖中。

04选择厨具和设备

每种食材都有适合自己的工具,要切土豆丝就用刀,要搅拌就用勺子,设备上,要加热就用烤箱,要炒菜就用微波炉。“工具”这就好比数据分析中的数据预处理技术。“设备”就好比线性回归,随机森林等算法。需要注意的是,并不是设备越复杂,做出的菜越好吃。

05选择菜谱

你做菜所需要的所有步骤。这就相当于模型,模型与算法不同。模型包括所有算法需要的预处理和之后的处理过程。

06准备材料

削皮,洗蔬菜,因为没人想吃没有洗过的蔬菜。这就好比数据预处理过程。比如,处理缺失值,重复值,更改数据类型,进行哑变量编码,选择数据子集,确保数据合法(比如出现年龄超过1

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值