篇一：数据探索性分析步骤

十二十二呀

已于 2023-01-09 09:37:27 修改

阅读量3.1k

点赞数

分类专栏：数据分析笔记文章标签： python 数据分析

于 2022-04-23 20:03:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/twlve/article/details/124308011

版权

本文详细介绍了数据探索性分析的四个步骤：总体了解、深入了解、特殊了解和关系了解。内容涉及数据维度、类型、分布、缺失值和唯一值的检查，以及特征变量间和与目标变量的关系分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl

目录

一.数据的总体了解

1.1 维度：data.shape

1.2 类型等基本信息：data.info()

1.3 统计信息：data.describe()

二.数据的深入了解

2.1 数据类型

2.1.1分类数据

2.1.2数值数据

2.2 数据分布：

2.2.1分类数据的分布

2.2.2离散型数据的分布

2.2.3连续型数据的分布

三.数据的特殊了解

四.数据的关系了解

4.1特征变量与特征变量之间

4.2特征变量与目标变量之间

一.数据的总体了解

数据读取全部采用data = pd.read_csv()格式

1.1 维度：data.shape

data.shape

1.2 类型等基本信息：data.info()

给出样本数据的相关信息概览：行数，列数，列索引，列非空值个数，列类型，内存占用，注意观察是否有连续型数据，离散型数据

data_train.info()

1.3 统计信息：data.describe()

生成描述性统计，总结数据集分布的中心趋势，分散和形状，不包括NaN值。

data.describe()

二.数据的深入了解

2.1 数据类型

特征一般由类别型数据和数值型数据构成，而数值型数据又分为离散型数据和连续型数据
类别型特征有时具有非数值关系，有时也具有数值关系。比如‘grade’中的等级A，B，C等，是否只是单纯的分类，还是A优于其他要结合业务判断。

2.1.1分类数据

category_fea = [x for x in data_train.columns if data_train[x].dtype == np.object]

2.1.2数值数据

numerical_fea = [x for x in data_train.columns if data_train[x].dtype != np.object]

数值型变量分析，数值型肯定是包括连续型变量和离散型变量

这里只是假设特征中特征值不重复的个数<10的特征判定为离散数据，具体还要根据字段分析

#过滤数

最低0.47元/天解锁文章

十二十二呀

博客等级

码龄6年

17
原创

39
点赞

356
收藏

22
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

爬取城市拥堵指数-百度地图&高德地图
qys. 0726: 作者你好，请问这是什么问题呢D:\pycharm\demo\pythonProject\venv\Scripts\python.exe D:\pycharm\demo\pythonProject\Web_crawler\test0.py Traceback (most recent call last): File "D:\pycharm\demo\pythonProject\Web_crawler\test0.py", line 35, in <module> city_click.click() File "D:\pycharm\demo\pythonProject\venv\lib\site-packages\selenium\webdriver\remote\webelement.py", line 94, in click self._execute(Command.CLICK_ELEMENT) File "D:\pycharm\demo\pythonProject\venv\lib\site-packages\selenium\webdriver\remote\webelement.py", line 395, in _execute return self._parent.execute(command, params) File "D:\pycharm\demo\pythonProject\venv\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 347, in execute self.error_handler.check_response(response) File "D:\pycharm\demo\pythonProject\venv\lib\site-packages\selenium\webdriver\remote\errorhandler.py", line 229, in check_response raise exception_class(message, screen, stacktrace) selenium.common.exceptions.ElementNotInteractableException: Message: element not interactable (Session info: chrome=122.0.6261.112) Stacktrace: GetHandleVerifier [0x00007FF7EBADAD02+56930] (No symbol) [0x00007FF7EBA4F602] (No symbol) [0x00007FF7EB90419D] (No symbol) [0x00007FF7EB94ACA2] (No symbol) [0x00007FF7EB93F798] (No symbol) [0x00007FF7EB96BC9A] (No symbol) [0x00007FF7EB93F09A] (No symbol) [0x00007FF7EB96BEB0] (No symbol) [0x00007FF7EB9881E2] (No symbol) [0x00007FF7EB96BA43] (No symbol) [0x00007FF7EB93D438] (No symbol) [0x00007FF7EB93E4D1] GetHandleVerifier [0x00007FF7EBE56F8D+3711213] GetHandleVerifier [0x00007FF7EBEB04CD+4077101] GetHandleVerifier [0x00007FF7EBEA865F+4044735] GetHandleVerifier [0x00007FF7EBB79736+706710] (No symbol) [0x00007FF7EBA5B8DF] (No symbol) [0x00007FF7EBA56AC4] (No symbol) [0x00007FF7EBA56C1C] (No symbol) [0x00007FF7EBA468D4] BaseThreadInitThunk [0x00007FFB5CDA257D+29] RtlUserThreadStart [0x00007FFB5D9EAA58+40] Process finished with exit code 1
O2O优惠券核销-SQL实现
Ustinian.536: 有线上的嘛
1.Softmax回归模型实现MNIST手写数字分类（python代码详解）
普通网友: import matplotlib.pyplot as plt n_images = 5 test = x_test[:n_images] predictions = logistic_f(test_images) for i in range(n_images): plt.imshow(np.reshape(test_images[i], [28, 28]), cmap='gray') plt.show() print("Model prediction: %i" % np.argmax(predictions.numpy()[i])) 改为 n_images = 5 test = x_test[:n_images] predictions = logistic_f(test) for i in range(n_images): plt.imshow(np.reshape(test[i], [28, 28]), cmap='gray') plt.show() print("Model prediction: %i" % np.argmax(predictions.numpy()[i]))
（八）集成学习Bagging之随机森林知识点汇总与python实现
那个发光的: 你好，请问数据集还在吗，分享过期了。下面的链接打开是not found
爬取城市拥堵指数-百度地图&高德地图
CSDN-Ada助手: 恭喜您撰写了第17篇博客！标题“爬取城市拥堵指数-百度地图&高德地图”非常吸引人。您的文章内容相当有实用价值，对于关心城市交通状况的读者来说，无疑是一份宝贵的资源。通过您的分享，读者们可以了解到如何有效地获取城市拥堵指数，而且您还提供了两种主要地图平台的比较，这样读者们可以选择最适合自己需求的方法。同时，我想给您提一些建议，以便您在下一篇博客中继续创作。您可以考虑添加一些实际案例或者使用统计数据来支持您的观点。此外，您还可以进一步探索如何利用这些拥堵指数数据来指导交通优化或者规划城市发展。这样的内容可能会引起更多读者的兴趣，并对他们有更大的帮助。总之，感谢您对读者们的付出和分享。期待您未来更多优质内容的发布！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

十二十二呀 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。