DATAWHALE-数据挖掘竞赛入门-task2-EDA-数据探索性分析

背景

这次的数据挖掘竞赛入门学习选取了阿里天池的二手车价格预测作为赛题,从数据竞赛的流程入手,为竞赛新人提供指导。那么,第二章主要是对数据探索性分析的介绍。

小插曲

翻开Datawhale提供的入门手册,打开Jupyter准备开敲,不料出现了报错,具体看:我如何发现打不开Jupyter的原因

数据探索性分析

数据探索性分析(Exploratory Data Analysis)目的在于熟悉与了解数据集,来满足以下目的:

  • 确保数据集可以用于后续的机器学习或深度学习
  • 了解自变量间以及自变量与因变量间的相互关系
  • 通过数据处理与特征工程使得预测更加可靠
  • 对数据进行一些图表或文字性描述

主要内容

  • 载入库与数据

常用的库有:numpy, pandas, matplotlib, seaborn, (missingno缺失值可视化库

常用的载入数据:pd.read_csv('data.csv')

  • 数据总览

主要运用DataFrame的 describe(个数、平均值、方差、分位数等) 与 info (数据类型type,观察是否有Null值)来查看总体介绍。

运用 df.head(). append( df.tail( ) ) 可以查看前5行与后5行的具体数据(局部)。

  • 判断数据缺失和异常

null值: df.isnull().sum()

可视化:可以尝试missingno库的可视化函数,如msno.matrix(), msno.bar()等

相应处理:null值过多可以考虑删掉该特征,少的可以选择填充。出现object类型可能是因为“-”的填充,需要多加留意,可以替换为nan。

倾斜:某些特征可能严重倾斜于某个值,方差较小,如全是1。这样的特征可以删除。

  • 了解预测值的分布

许多模型要求变量独立且符合正态分布,因此有必要了解一下预测值的分布情况。可以运用可视化工具观察样本值的分布,如sns.distplot(), 其中的fit 参数可以拟合各种分布。尽量通过变换使变量近似服从正态分布。

此外还可以峰度与偏度,观察是否有异常值。可以用df.skew()(偏度), df.kurt()(峰度)结合distplot来查看。

  • 类别特征与数字特征

特征一般可以分为类别特征与数字特征

对于类别特征,使用df.value_count()可以查看类别有多少个。可以使用sns.boxplot()画出箱型图,观察异常值;如果用sns.violinplot()画出小提琴图,可以在箱型图的基础上观察概率密度,一举两得。sns.barplot()画出条形图也能帮你观察大致分布。

对于数字特征,可以进行相关性分析,剔除相关度高的,避免多重共线性或其他问题,可视化可用sns.heatmap()或sns.pairplot();还有之前提到的峰度与偏度,以及用distplot了解数据分布情况。也可以尝试用sns.regplot()来将不同特征与预测值强行拟合,当然regplot也能显示特征与预测值间的分布关系,也许会有一些规律给你启示。

画图可以参考这一篇:Pairplot多变量图

  • 生成数据报告

​​​​​​​使用pandas_profiling.ProfileReport(), 可以生成一个较为全面的可视化和数据报告(html文件)。

import pandas_profiling as pdpf
pf = pdpf.ProfileReport(df)
pf.to_file("./report.html")

 

总结

EDA是建模训练的第一步,主要是熟悉数据,挖掘潜在的信息,为后面的特征工程做好准备。其中涉及观察数字特征、了解数据类型、缺失处理、异常处理、可视化处理、相关性独立性分析等等,这都值得进一步研究,这篇文章目前只做了简略的介绍,可能以后还会进一步更新,尤其是可视化的图,还没来得及加上去。

参考资料

感谢Datawhale团队提供的教材,感兴趣的朋友可以参考Datawhale的github开源库

如果想要加入学习,不妨关注一下Datawhale官方公众号。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
完整版:https://download.csdn.net/download/qq_27595745/89522468 【课程大纲】 1-1 什么是java 1-2 认识java语言 1-3 java平台的体系结构 1-4 java SE环境安装和配置 2-1 java程序简介 2-2 计算机中的程序 2-3 java程序 2-4 java类库组织结构和文档 2-5 java虚拟机简介 2-6 java的垃圾回收器 2-7 java上机练习 3-1 java语言基础入门 3-2 数据的分类 3-3 标识符、关键字和常量 3-4 运算符 3-5 表达式 3-6 顺序结构和选择结构 3-7 循环语句 3-8 跳转语句 3-9 MyEclipse工具介绍 3-10 java基础知识章节练习 4-1 一维数组 4-2 数组应用 4-3 多维数组 4-4 排序算法 4-5 增强for循环 4-6 数组和排序算法章节练习 5-0 抽象和封装 5-1 面向过程的设计思想 5-2 面向对象的设计思想 5-3 抽象 5-4 封装 5-5 属性 5-6 方法的定义 5-7 this关键字 5-8 javaBean 5-9 包 package 5-10 抽象和封装章节练习 6-0 继承和多态 6-1 继承 6-2 object类 6-3 多态 6-4 访问修饰符 6-5 static修饰符 6-6 final修饰符 6-7 abstract修饰符 6-8 接口 6-9 继承和多态 章节练习 7-1 面向对象的分析与设计简介 7-2 对象模型建立 7-3 类之间的关系 7-4 软件的可维护与复用设计原则 7-5 面向对象的设计与分析 章节练习 8-1 内部类与包装器 8-2 对象包装器 8-3 装箱和拆箱 8-4 练习题 9-1 常用类介绍 9-2 StringBuffer和String Builder类 9-3 Rintime类的使用 9-4 日期类简介 9-5 java程序国际化的实现 9-6 Random类和Math类 9-7 枚举 9-8 练习题 10-1 java异常处理 10-2 认识异常 10-3 使用try和catch捕获异常 10-4 使用throw和throws引发异常 10-5 finally关键字 10-6 getMessage和printStackTrace方法 10-7 异常分类 10-8 自定义异常类 10-9 练习题 11-1 Java集合框架和泛型机制 11-2 Collection接口 11-3 Set接口实现类 11-4 List接口实现类 11-5 Map接口 11-6 Collections类 11-7 泛型概述 11-8 练习题 12-1 多线程 12-2 线程的生命周期 12-3 线程的调度和优先级 12-4 线程的同步 12-5 集合类的同步问题 12-6 用Timer类调度任务 12-7 练习题 13-1 Java IO 13-2 Java IO原理 13-3 流类的结构 13-4 文件流 13-5 缓冲流 13-6 转换流 13-7 数据流 13-8 打印流 13-9 对象流 13-10 随机存取文件流 13-11 zip文件流 13-12 练习题 14-1 图形用户界面设计 14-2 事件处理机制 14-3 AWT常用组件 14-4 swing简介 14-5 可视化开发swing组件 14-6 声音的播放和处理 14-7 2D图形的绘制 14-8 练习题 15-1 反射 15-2 使用Java反射机制 15-3 反射与动态代理 15-4 练习题 16-1 Java标注 16-2 JDK内置的基本标注类型 16-3 自定义标注类型 16-4 对标注进行标注 16-5 利用反射获取标注信息 16-6 练习题 17-1 顶目实战1-单机版五子棋游戏 17-2 总体设计 17-3 代码实现 17-4 程序的运行与发布 17-5 手动生成可执行JAR文件 17-6 练习题 18-1 Java数据库编程 18-2 JDBC类和接口 18-3 JDBC操作SQL 18-4 JDBC基本示例 18-5 JDBC应用示例 18-6 练习题 19-1 。。。
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值