实验1 探索数据集的基本操作
一、实验目的与要求:
目的:
探索数据集的基本操作,包括对数据集进行描述性统计分析和可视化分析。
要求:
学生选择合适的数据分析工具软件,并通过实验步骤和源代码来展示数据集的分析结果。
二、实验原理:
数据集探索性分析是在数据分析工作中的第一步,通过对数据集的基本操作,可以对数据集的特征和结构有一个初步的了解。
描述性统计分析可以帮助我们获取数据集的基本统计信息,如均值、中位数、标准差等;而可视化分析则可以通过图表的形式更直观地展示数据的分布和关系。
三、实验内容与步骤
(1)数据分析工具软件选取及简要介绍:
工具软件:visual Studio Code中的插件python
简要介绍:
Visual Studio Code(简称VS Code)是一款轻量级的集成开发环境(IDE),广泛用于多种编程语言的开发工作。虽然VS Code本身并不是专门用于数据挖掘的工具,但我们可以借助其强大的插件系统来进行数据挖掘的工作。
Python插件:数据挖掘中常用的编程语言之一是Python,可以安装VS Code的Python插件来支持Python的开发和调试。该插件提供了代码自动补全、语法高亮、调试等功能,方便进行数据挖掘任务的编写和执行。
Python是一种通用的编程语言,具有广泛的应用领域,包括数据科学和数据分析。在数据获取方面,Python提供了多个库和工具,使得获取各种类型的数据集变得相对简单。
以下是一些常用的Python库和工具,用于获取数据集:
---在此实验中
pandas:pandas是一个强大的数据处理库,其中含有用于从各种格式(如CSV、Excel、SQL数据库等)读取和写入数据的函数和方法。
NumPy:NumPy是Python的一个重要科学计算库,提供了高性能的数组操作功能。它可以用于处理数值型数据集,进行统计分析、数值计算等操作。
- 获取实验所用数据集
import pandas as pd
# 提供正确的 Excel 文件路径
df = pd.read_excel(r'C:\Users\吴心雨\OneDrive\桌面\数据挖掘实验\B站用户数据.xlsx')
# 打印 DataFrame 的前几行数据
print(df.head())
运行结果
- 描述性统计分析步骤、结果及可视化步骤、结果(源代码可以复制粘贴)
- 首先,对数据集进行描述性统计分析
包括计算各个变量的均值、中位数、标准差等统计指标。可以使用相关函数或方法来实现,并将结果展示出来。
- 均值:
# 计算每个变量的均值
mean_values = df.mean()
# 打印均值结果
print("均值:/n",mean_values)
运行结果
- 中位数:
# 计算每个变量的中位数
median_values = df.median()
# 打印中位数结果
print("中位数:/n"