python数据分析学习心得

孤独的根号弎

已于 2023-06-05 20:01:21 修改

阅读量827

点赞数

文章标签： python 数据分析 numpy 数据挖掘机器学习

于 2023-06-05 19:58:13 首次发布

本文链接：https://blog.csdn.net/m0_68858590/article/details/131054832

版权

数据清洗是数据分析中的关键步骤。

在进行数据分析之前，必须要进行数据清洗。数据清洗意味着对原始数据进行检查和清理，以确保数据的完整、准确和一致性。在数据清洗中，经常遇到缺失值、异常值、重复值等问题，需要逐一处理并进行数据补全或数据删除。如果数据不干净，分析的结果将不可靠。因此，在进行数据分析之前，首要任务就是进行数据清洗。

以下是一个示例，用Python清理缺失值：

import pandas as pd
import numpy as np

data = {'name': ['Jim', 'Tom', 'Alice', 'Joe'],
        'age': [25, np.nan, 30, 35],
        'gender': ['M', 'M', 'F', np.nan]}

df = pd.DataFrame(data)
print(df)

# 删除含有缺失值的数据行
df = df.dropna()
print(df)

2.数据可视化对数据分析至关重要。

数据可视化可以让数据更加直观，帮助我们更好地理解数据，从而能够更好地进行数据分析和预测。Python提供了一些强大的数据可视化工具，例如Matplotlib和Seaborn，用这些工具可以方便地创建各种类型的图表和图形。对于数据分析人员来说，以图形方式展示数据是一个很好的习惯。

以下是一个示例，用Python制作条形图：

import matplotlib.pyplot as plt
import pandas as pd

data = {'name': ['Jim', 'Tom', 'Alice', 'Joe'],
        'age': [25, 30, 35, 40]}

df = pd.DataFrame(data)
plt.bar(df['name'], df['age'])
plt.show()

3.了解数据处理和分析库的选择。

Python中有许多用于数据处理和分析的库，如NumPy、Pandas、Matplotlib、Seaborn等。不同的库有不同的优点和适用场景。对于小型数据集，可以使用位于 NumPy 或 Pandas 库中的处理方法，而大型数据集可能需要使用分布式计算工具。根据数据大小、资源限制和所需的精度，选择相应的数据处理和分析库是至关重要的。

以下是一个示例，用Python用Pandas计算均值和中位数：

import pandas as pd

data = {'name': ['Jim', 'Tom', 'Alice', 'Joe'],
        'age': [25, 30, 35, 40]}

df = pd.DataFrame(data)
print(df)

# 计算均值
mean_age = df['age'].mean()
print('Mean Age:', mean_age)

# 计算中位数
median_age = df['age'].median()
print('Median Age:', median_age)

4.学习机器学习算法。

现在越来越多的公司和组织找到数据分析员来有效地分析他们的海量数据。机器学习可以在处理海量数据时提供巨大的帮助。学习机器学习算法的基础知识，如监督学习和非监督学习，以及掌握常见的机器学习算法，如线性回归、逻辑回归、支持向量机等，将大大提高数据分析的效率和准确性。

深入掌握统计学和机器学习的知识。统计学和机器学习是数据分析中的常用工具，熟练掌握这些技术可以在将数据转化为有价值的信息方面提供帮助。例如，可以使用Python中的Scikit-learn库来构建分类器和回归模型，从而对数据进行预测、分类等工作。

下面是一段使用Scikit-learn构建分类器的代码示例：

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.cross_validation import cross_val_score

# 加载数据
iris = load_iris()

# 构建分类器
clf = DecisionTreeClassifier()

# 交叉验证
scores = cross_val_score(clf, iris.data, iris.target, cv=5)

# 输出结果
print(scores.mean())

这段代码展示了如何使用Scikit-learn加载iris鸢尾花数据集，在采用决策树算法之后进行数据分类。使用 cross_val_score 函数进行交叉验证，并最后输出各次结果的平均值。

5.线性回归模型是最简单的机器学习模型。它通过拟合一个关于X的线性函数来预测Y。在Python中，我们可以使用Scikit-learn库轻松地实现线性回归模型。下面是一个步骤清晰的代码示例，展示如何使用Scikit-learn库学习和拟合简单的线性回归模型。

5.1安装Scikit-learn库

首先，从命令行安装Scikit-learn库。在Windows系统上，可以使用以下命令安装：

pip install -U scikit-learn

5.2准备数据

第二步是准备用于训练和测试的数据。我们将使用“波士顿房屋价格”数据集，它包含了506个简单的房屋信息（如犯罪率、当地的房产税率等）和对应的房屋价格中位数。可以使用Scikit-learn中的load_boston()函数来载入这个数据集。

from sklearn.datasets import load_boston
boston = load_boston()

这个数据集可以使用boston.data和boston.target访问。我们将使用boston.data中的犯罪率这一列数据来拟合一个简单的线性回归模型。

X = boston.data[:, 0]
y = boston.target

5.3准备训练和测试数据集

为了评价模型的性能，我们需要将数据集分成训练集和测试集。Scikit-learn提供了一个很方便的函数train_test_split()，可以用来随机划分数据集。通常，我们将约80％的数据分配给训练集，剩余的20％分配给测试集。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

5.4创建并拟合模型

我们使用Scikit-learn库中的线性回归算法来拟合模型。在fit()函数中，我们将训练数据集的特征和目标变量传递给函数。对于简单的线性回归，我们还需要将reshape()函数用于特征向量。

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train.reshape(-1, 1), y_train)

5.5模型评价

拟合好模型后，我们可以使用evaluate_model()函数来评估模型。使用测试集来进行评价，并输出R-squared和均方误差。

from sklearn.metrics import r2_score, mean_squared_error
import matplotlib.pyplot as plt

def evaluate_model(model, X_test, y_test):
    y_pred = model.predict(X_test.reshape(-1, 1))
    # 计算R-squared
    r2 = r2_score(y_test, y_pred)
    # 计算均方误差
    mse = mean_squared_error(y_test, y_pred)
    # 输出结果
    print("R-squared: {:.2f}".format(r2))
    print("Mean squared error: {:.2f}".format(mse))
    # 绘制结果图
    plt.scatter(X_test, y_test, color='black')
    plt.plot(X_test, y_pred, color='blue', linewidth=3)
    plt.xlabel('Crime rate')
    plt.ylabel('House price')
    plt.show()

evaluate_model

总结一下，Python数据分析领域肯定还有很多有价值的技术和方法，需要不断学习、练习和实践以应对未来的数据分析工作。

孤独的根号弎

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
python数据分析学习心得

学习机器学习算法的基础知识，如监督学习和非监督学习，以及掌握常见的机器学习算法，如线性回归、逻辑回归、支持向量机等，将大大提高数据分析的效率和准确性。下面是一个步骤清晰的代码示例，展示如何使用Scikit-learn库学习和拟合简单的线性回归模型。例如，可以使用Python中的Scikit-learn库来构建分类器和回归模型，从而对数据进行预测、分类等工作。我们将使用“波士顿房屋价格”数据集，它包含了506个简单的房屋信息（如犯罪率、当地的房产税率等）和对应的房屋价格中位数。
复制链接

扫一扫