python数据分析中你必须知道的陷阱和技巧

Ai_绘画小南

已于 2024-01-11 11:31:33 修改

阅读量175

点赞数

文章标签：人工智能 python 爬虫开发语言信息可视化数据分析数据挖掘

于 2023-07-18 15:27:24 首次发布

本文链接：https://blog.csdn.net/Java_Joker/article/details/131788562

版权

数据分析是一门既有趣又有挑战的技能，它可以帮助我们从海量的数据中提取有价值的信息，为决策提供支持。但是，数据分析也不是一件轻松的事情，它需要我们掌握一定的编程、统计、可视化等知识，同时也要注意避免一些常见的错误和陷阱。在本文中，我将分享我在使用python进行数据分析时遇到的一些坑，以及如何解决或避免它们。

坑一：数据类型不匹配

python是一种动态类型的语言，它不需要我们在定义变量时指定数据类型，而是根据赋值自动推断。这样的特性可以让我们编写代码更加灵活，但也可能导致一些意想不到的问题。比如，当我们从csv文件中读取数据时，python会默认将所有的数据都当作字符串处理，而不会考虑它们实际的类型。这就可能导致我们在进行数值运算或者日期处理时出现错误或者异常。

为了解决这个问题，我们需要在读取数据时指定每一列的数据类型，或者在后续的分析过程中对数据进行转换。例如，我们可以使用pandas库中的read_csv函数来读取csv文件，并通过dtype参数来指定每一列的数据类型。或者，我们可以使用astype函数来将某一列或者整个数据框转换为指定的类型。例如：

import pandas as pd

# 读取csv文件，并指定第一列为日期类型，第二列为整数类型

df = pd.read_csv("data.csv", dtype={"date": "datetime64", "value": "int"})

# 将第三列转换为浮点数类型

df["price"] = df["price"].astype("float")

坑二：缺失值和异常值的处理

数据分析中另一个常见的问题是缺失值和异常值的处理。缺失值指的是数据中存在空白或者无效的值，异常值指的是数据中存在明显偏离正常范围或者逻辑的值。这些值可能是由于数据采集、录入、传输等过程中产生的错误或者干扰所导致的，也可能是由于数据本身的特性所决定的。无论如何，这些值都会影响我们对数据的分析和理解，因此需要我们进行合理的处理。

缺失值和异常值的处理方法有很多种，具体要根据数据的特点和分析目标来选择。一般来说，有以下几种常用的方法：

删除：这是最简单也最直接的方法，就是直接删除含有缺失值或者异常值的行或者列。这样做可以保证数据的完整性和准确性，但也会损失一部分信息，可能导致样本量不足或者偏差增大。
填充：这是最常用也最灵活的方法，就是用某种方式来填补缺失值或者替换异常值。这样做可以保留更多的信息，但也会引入一定程度的误差或者假设。填充的方式有很多种，比如用均值、中位数、众数、插值、回归等方法来填充数值型缺失值；用最近邻、热编码、聚类等方法来填充类别型缺失值；用箱线图、3σ法则、马氏距离等方法来识别和替换异常值等。
忽略：这是最特殊也最少用的方法，就是不对缺失值或者异常值进行任何处理，而是直接忽略它们的存在。这样做可以避免任何人为的干预，但也会带来一些潜在的风险和问题。这种方法只适用于一些特殊的情况，比如缺失值或者异常值的比例很低，或者对分析结果没有显著的影响，或者使用的分析方法可以自动处理缺失值或者异常值等。

在python中，我们可以使用pandas库中的一些函数来处理缺失值和异常值。例如，我们可以使用dropna函数来删除含有缺失值的行或者列，使用fillna函数来填充缺失值，使用isna函数来判断是否有缺失值，使用describe函数来查看数据的基本统计信息，使用boxplot函数来绘制箱线图，使用zscore函数来计算标准化分数等。例如：

import pandas as pd

import numpy as np

from scipy.stats import zscore

# 读取csv文件

df = pd.read_csv("data.csv")

# 删除含有缺失值的行

df = df.dropna(axis=0)

# 用均值填充缺失值

df = df.fillna(df.mean())

# 判断是否有缺失值

print(df.isna().any())

# 查看数据的基本统计信息

print(df.describe())

# 绘制箱线图

df.boxplot()

# 计算标准化分数

df["zscore"] = zscore(df["value"])

# 删除异常值（标准化分数绝对值大于3的）

df = df[abs(df["zscore"]) < 3]

坑三：数据规范化和标准化

数据规范化和标准化是数据预处理中的重要步骤，它们可以使数据更加统一和可比，提高数据分析的效果和效率。数据规范化指的是将数据转换为一种通用的格式或者范围，比如将日期格式统一为YYYY-MM-DD，将货币单位统一为美元，将数值型数据映射到[0,1]或者[-1,1]之间等。数据标准化指的是将数据转换为均值为0，标准差为1的正态分布，比如使用z-score或者min-max方法等。

数据规范化和标准化的目的是为了消除数据之间的差异和影响，使得数据更加适合进行后续的分析和建模。例如，在进行聚类、分类、回归等机器学习任务时，如果数据没有进行规范化和标准化，可能会导致不同特征之间的权重不平衡，影响模型的性能和准确度。

在python中，我们可以使用pandas库中的一些函数来进行数据规范化和标准化。例如，我们可以使用to_datetime函数来将字符串转换为日期类型，使用apply函数来对某一列或者整个数据框进行自定义的函数操作，使用sklearn库中的preprocessing模块来进行常用的规范化和标准化方法等。例如：


import pandas as pd

from sklearn import preprocessing

# 读取csv文件

df = pd.read_csv("data.csv")

# 将字符串转换为日期类型

df["date"] = pd.to_datetime(df["date"], format="%Y-%m-%d")

# 将货币单位转换为美元（假设汇率为6.5）

df["price"] = df["price"].apply(lambda x: x / 6.5)

# 将数值型数据映射到[0,1]之间

df["value"] = preprocessing.minmax_scale(df["value"])

# 将数值型数据转换为正态分

将数值型数据转换为正态分# 将数值型数据转换为正态分布

df["score"] = preprocessing.scale(df["score"])

查看数据的基本信息

df.describe()

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

三、精品Python学习书籍

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、Python练习题

检查学习结果。

七、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

最后祝大家天天进步！！

上面这份完整版的Python全套学习资料已经上传至CSDN官方，朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

Ai_绘画小南

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据分析中你必须知道的陷阱和技巧

数据分析是一门既有趣又有挑战的技能，它可以帮助我们从海量的数据中提取有价值的信息，为决策提供支持。但是，数据分析也不是一件轻松的事情，它需要我们掌握一定的编程、统计、可视化等知识，同时也要注意避免一些常见的错误和陷阱。在本文中，我将分享我在使用python进行数据分析时遇到的一些坑，以及如何解决或避免它们。
复制链接

扫一扫