数据清洗与可视化：使用numpy、pandas、matplotlib、pyecharts和seaborn进行分析

数据爬坡ing

已于 2024-10-17 18:27:10 修改

阅读量1.2k

点赞数 1

分类专栏：数据分析文章标签： numpy pandas matplotlib 数据可视化

于 2023-09-29 12:10:13 首次发布

本文链接：https://blog.csdn.net/m0_67447926/article/details/133413940

版权

数据分析专栏收录该内容

22 篇文章

订阅专栏

引言：数据处理和可视化是数据分析的重要环节。本文将介绍如何使用numpy、pandas、matplotlib、pyecharts和seaborn等库进行数据清洗和可视化，通过具体的例子演示这些工具的基本功能和使用方法。

一、科学计算与数据预处理

1,Numpy基础功能
1. 创建数组：例如使用np.array创建一维(np.arange)和二维数组。
2. 数组操作：包括数组形状的改变(reshape)、求和、均值等操作。
3. 数组保存与读取：如何将数组保存为文件(save)并读取回来(load)进行使用。

举例：通过numpy创建一维数组并进行求和计算。

import numpy as np arr = np.array([1, 2, 3, 4, 5])

print(arr) # 输出：[1 2 3 4 5]

sum_arr = np.sum(arr) print(sum_arr) # 输出：15

2,Pandas数据清洗与预处理
1. 数据导入与导出：使用pd.read_csv读取CSV文件，to_csv将数据保存为CSV文件。
2. 数据预览与摘要统计：通过.head()和.describe()方法查看数据的前几行和统计信息。
3. 缺失值处理：如何判断和处理缺失值，例如使用.dropna删除包含缺失值的行或使用.fillna填充缺失值。

举例：使用pandas读取CSV文件并展示前几行数据。

import pandas as pd data = pd.read_csv('data.csv')

print(data.head()) # 输出数据的前几行

二、数据可视化工具的使用

1,Matplotlib基础功能
1. 绘制折线图：如何使用matplotlib.pyplot.plot函数绘制简单的折线图。
2. 设置图表样式和属性：调整坐标轴范围、添加标题和标签等来美化图表。

举例：使用matplotlib绘制简单的折线图。

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]

y = [2, 4, 6, 8, 10]

plt.plot(x, y)

plt.xlabel('X轴')

plt.ylabel('Y轴')

plt.title('简单折线图')

plt.show()

2,Pyecharts动态图表绘制
1. 使用Line类库绘制折线图：如何使用Line类绘制动态折线图。
2. 自定义图表样式和配置项：调整颜色、线型和添加工具栏。

举例：使用pyecharts绘制简单的动态折线图。

from pyecharts import options as opts from pyecharts.charts import Line

x = [1, 2, 3, 4, 5]

y = [2, 4, 6, 8, 10]

line = Line()

line.add_xaxis(xaxis_data=x)

line.add_yaxis(series_name="折线图", y_axis=y) line.set_global_opts(title_opts=opts.TitleOpts(title="动态折线图")) line.render("line_chart.html")

3,Seaborn数据分布可视化
1. 绘制箱线图：如何使用seaborn绘制箱线图来展示数据的分布情况。
2. 设置图表风格：调整图表的风格，如背景颜色和网格样式。

举例：使用seaborn绘制简单的箱线图。

import seaborn as sns

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

sns.boxplot(data=data)

plt.title('箱线图')

plt.show()

三,补充内容：

a,解决中文乱码和负号显示问题

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Simhei']  # 设置中文显示
plt.rcParams['axes.unicode_minus'] = False   # 解决负号显示问题

b,Numpy方面常用的函数有：

np.arange：创建一个一维数组，可以指定起始值、终止值和步长。
np.linspace：创建一个一维数组，可以指定起始值、终止值和数组长度。
np.array：将列表或元组转换为数组。
np.random.randint：生成指定范围内的随机整数数组。
np.random.rand：生成指定形状的随机浮点数数组。
astype：用于改变数组的数据类型。
reshape：用于改变数组的形状。
flatten：将多维数组展平为一维数组。
save：将数组保存到文件。
load：从文件中读取数组。
sort：对数组进行排序。
unique：去除数组中的重复元素。
tolist：将数组转换为列表。

c,Pandas常用的函数有：

pd.Series：创建一个序列。
pd.DataFrame：创建一个数据框。
isnull、notnull：判断缺失值。
pd.read_csv：读取CSV文件。
to_csv：将数据保存为CSV文件。
pd.read_json：读取JSON文件。
pd.read_html：读取HTML文件。
read_clipboard：从剪贴板读取数据。
info：查看数据的类型和缺失值情况。
describe：查看数据的统计信息。
shape：查看数据框的行数和列数。
loc：通过自定义索引切片。
iloc：通过默认索引切片。
reindex：重新索引。
drop：删除行或列。
dropna：删除包含缺失值的行或列。
drop_duplicates：删除重复值。
fillna：填充缺失值。
replace：替换指定值。
groupby：按照指定的列进行分组。
apply：对分组后的数据应用函数。
sort_index：按照索引排序。
sort_values：按照值排序。
ascending：指定升序或降序。
count：统计个数。
merge：合并数据框。
on：指定合并键。
how：指定连接方式。
agg：传入自定义的聚合函数。
crosstab：生成交叉表。

d,Pandas绘图函数有：

df.plot.bar：绘制柱状图。
df.plot.line：绘制折线图。
df.plot.scatter：绘制散点图。
df.plot.hist：绘制直方图。
df.plot.box：绘制箱线图。
df.plot.pie：绘制饼图。

e,Pandas时间序列分析常用的函数有：

Timestamp：表示时间戳的数据类型。
to_datetime：将数据转换为日期时间格式。
.dt.strftime：指定格式化字符串将日期时间转换为指定格式。
copy：浅拷贝数据。
deepcopy：深拷贝数据。

f,Pandas字符串处理常用的方法有：

find：查找字符串中指定字符或子串的索引。
findall：提取符合正则表达式的子串。
strip：去除字符串前后的空格。
split：根据指定的分隔符将字符串分割为多个子串。

g,Matplotlib是显示基本图表的库，常用函数有：

plt.text：在图表中增加文字说明。
plt.annotate：在图表中标注特定位置并添加箭头。

结尾：本文通过具体的例子介绍了如何使用numpy、pandas、matplotlib、pyecharts和seaborn等工具进行数据清洗和可视化。希望读者能够通过这些例子掌握这些工具的基本用法，从而更好地处理和展示数据。

还想看更多，来啦！！！

数据清洗与可视化：使用numpy、pandas、matplotlib、pyecharts和seaborn进行分析

一、科学计算与数据预处理

二、数据可视化工具的使用

三,补充内容：

1，大数据比赛篇全国职业院校技能大赛-大数据比赛心得体会_全国职业职业技能比赛大数据-CSDN博客

2，求职简历篇（超实用）大学生简历写作指南：让你的简历脱颖而出-CSDN博客

3，AIGC心得篇aigc时代，普通人需要知道的-CSDN博客

4，数据分析思维篇学习数据分析思维的共鸣-CSDN博客

5，中年危机篇“中年危机”如何转变为“中年机遇”-CSDN博客

其他需求，看主页哦！

数据清洗与可视化：使用numpy、pandas、matplotlib、pyecharts和seaborn进行分析

一、科学计算与数据预处理

二、数据可视化工具的使用

三,补充内容：

1，大数据比赛篇全国职业院校技能大赛-大数据比赛心得体会_全国职业职业技能比赛 大数据-CSDN博客

2，求职简历篇（超实用）大学生简历写作指南：让你的简历脱颖而出-CSDN博客

3，AIGC心得篇aigc时代，普通人需要知道的-CSDN博客

4，数据分析思维篇学习数据分析思维的共鸣-CSDN博客

5，中年危机篇“中年危机”如何转变为“中年机遇”-CSDN博客

其他需求，看主页哦！

1，大数据比赛篇全国职业院校技能大赛-大数据比赛心得体会_全国职业职业技能比赛大数据-CSDN博客