数据清洗与可视化:使用numpy、pandas、matplotlib、pyecharts和seaborn进行分析

引言: 数据处理和可视化是数据分析的重要环节。本文将介绍如何使用numpy、pandas、matplotlib、pyecharts和seaborn等库进行数据清洗和可视化,通过具体的例子演示这些工具的基本功能和使用方法。

一、科学计算与数据预处理

  1. 1,Numpy基础功能

    1. 创建数组:例如使用np.array创建一维(np.arange)和二维数组。
    2. 数组操作:包括数组形状的改变(reshape)、求和、均值等操作。
    3. 数组保存与读取:如何将数组保存为文件(save)并读取回来(load)进行使用。

举例:通过numpy创建一维数组并进行求和计算。

import numpy as np arr = np.array([1, 2, 3, 4, 5])

print(arr) # 输出:[1 2 3 4 5]

sum_arr = np.sum(arr) print(sum_arr) # 输出:15
  1. 2,Pandas数据清洗与预处理

    1. 数据导入与导出:使用pd.read_csv读取CSV文件,to_csv将数据保存为CSV文件。
    2. 数据预览与摘要统计:通过.head()和.describe()方法查看数据的前几行和统计信息。
    3. 缺失值处理:如何判断和处理缺失值,例如使用.dropna删除包含缺失值的行或使用.fillna填充缺失值。

举例:使用pandas读取CSV文件并展示前几行数据。

import pandas as pd data = pd.read_csv('data.csv')

print(data.head()) # 输出数据的前几行

二、数据可视化工具的使用

  1. 1,Matplotlib基础功能

    1. 绘制折线图:如何使用matplotlib.pyplot.plot函数绘制简单的折线图。
    2. 设置图表样式和属性:调整坐标轴范围、添加标题和标签等来美化图表。

举例:使用matplotlib绘制简单的折线图。

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]

y = [2, 4, 6, 8, 10]

plt.plot(x, y)

plt.xlabel('X轴')

plt.ylabel('Y轴')

plt.title('简单折线图')

plt.show()
  1. 2,Pyecharts动态图表绘制

    1. 使用Line类库绘制折线图:如何使用Line类绘制动态折线图。
    2. 自定义图表样式和配置项:调整颜色、线型和添加工具栏。

举例:使用pyecharts绘制简单的动态折线图。

from pyecharts import options as opts from pyecharts.charts import Line

x = [1, 2, 3, 4, 5]

y = [2, 4, 6, 8, 10]

line = Line()

line.add_xaxis(xaxis_data=x)

line.add_yaxis(series_name="折线图", y_axis=y) line.set_global_opts(title_opts=opts.TitleOpts(title="动态折线图")) line.render("line_chart.html")
  1. 3,Seaborn数据分布可视化

    1. 绘制箱线图:如何使用seaborn绘制箱线图来展示数据的分布情况。
    2. 设置图表风格:调整图表的风格,如背景颜色和网格样式。

举例:使用seaborn绘制简单的箱线图。

import seaborn as sns

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

sns.boxplot(data=data)

plt.title('箱线图')

plt.show()

三,补充内容:

a,解决中文乱码和负号显示问题

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['Simhei']  # 设置中文显示
plt.rcParams['axes.unicode_minus'] = False   # 解决负号显示问题

b,Numpy方面常用的函数有:

np.arange:创建一个一维数组,可以指定起始值、终止值和步长。
np.linspace:创建一个一维数组,可以指定起始值、终止值和数组长度。
np.array:将列表或元组转换为数组。
np.random.randint:生成指定范围内的随机整数数组。
np.random.rand:生成指定形状的随机浮点数数组。
astype:用于改变数组的数据类型。
reshape:用于改变数组的形状。
flatten:将多维数组展平为一维数组。
save:将数组保存到文件。
load:从文件中读取数组。
sort:对数组进行排序。
unique:去除数组中的重复元素。
tolist:将数组转换为列表。

c,Pandas常用的函数有:

pd.Series:创建一个序列。
pd.DataFrame:创建一个数据框。
isnull、notnull:判断缺失值。
pd.read_csv:读取CSV文件。
to_csv:将数据保存为CSV文件。
pd.read_json:读取JSON文件。
pd.read_html:读取HTML文件。
read_clipboard:从剪贴板读取数据。
info:查看数据的类型和缺失值情况。
describe:查看数据的统计信息。
shape:查看数据框的行数和列数。
loc:通过自定义索引切片。
iloc:通过默认索引切片。
reindex:重新索引。
drop:删除行或列。
dropna:删除包含缺失值的行或列。
drop_duplicates:删除重复值。
fillna:填充缺失值。
replace:替换指定值。
groupby:按照指定的列进行分组。
apply:对分组后的数据应用函数。
sort_index:按照索引排序。
sort_values:按照值排序。
ascending:指定升序或降序。
count:统计个数。
merge:合并数据框。
on:指定合并键。
how:指定连接方式。
agg:传入自定义的聚合函数。
crosstab:生成交叉表。

d,Pandas绘图函数有:

df.plot.bar:绘制柱状图。
df.plot.line:绘制折线图。
df.plot.scatter:绘制散点图。
df.plot.hist:绘制直方图。
df.plot.box:绘制箱线图。
df.plot.pie:绘制饼图。

e,Pandas时间序列分析常用的函数有:

Timestamp:表示时间戳的数据类型。
to_datetime:将数据转换为日期时间格式。
.dt.strftime:指定格式化字符串将日期时间转换为指定格式。
copy:浅拷贝数据。
deepcopy:深拷贝数据。

f,Pandas字符串处理常用的方法有:

find:查找字符串中指定字符或子串的索引。
findall:提取符合正则表达式的子串。
strip:去除字符串前后的空格。
split:根据指定的分隔符将字符串分割为多个子串。

g,Matplotlib是显示基本图表的库,常用函数有:

plt.text:在图表中增加文字说明。
plt.annotate:在图表中标注特定位置并添加箭头。

结尾: 本文通过具体的例子介绍了如何使用numpy、pandas、matplotlib、pyecharts和seaborn等工具进行数据清洗和可视化。希望读者能够通过这些例子掌握这些工具的基本用法,从而更好地处理和展示数据。

还想看更多,来啦!!!

1,大数据比赛篇全国职业院校技能大赛-大数据比赛心得体会_全国职业职业技能比赛 大数据-CSDN博客

2,求职简历篇(超实用)大学生简历写作指南:让你的简历脱颖而出-CSDN博客

3,AIGC心得篇aigc时代,普通人需要知道的-CSDN博客

4,数据分析思维篇学习数据分析思维的共鸣-CSDN博客

5,中年危机篇“中年危机”如何转变为“中年机遇”-CSDN博客

其他需求,看主页哦!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据爬坡ing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值