python数据分析与可视化知识梳理

Python数据分析与可视化是指使用Python编程语言对数据进行处理、分析和可视化的过程。

下面是对这一领域的知识梳理:

1.数据处理:

Numpy库:提供了多维数组对象和各种用于数组操作的函数,包括数学、逻辑、形状操作等。可以进行矩阵运算、数值计算等操作。
Pandas库:提供了两种主要的数据结构,即Series(一维标签数组)和DataFrame(二维带标签的数据结构)。可以进行数据清洗、转换、整合等操作,支持数据的索引、切片、合并、分组等操作。

2.数据分析:

Scipy库:提供了一系列科学计算的函数和工具,包括统计分析、优化、插值等。常用的功能包括概率分布、假设检验、回归分析、数据插值等。
Statsmodels库:提供了多种统计模型和方法,可以进行回归分析、时间序列分析等。除了提供统计模型的实现,还提供了模型诊断和推断的工具。

3.数据可视化:

Matplotlib库:是Python中最常用的绘图库,可以绘制各种类型的图形,包括折线图、柱状图、散点图、饼图等。可以自定义图形的样式、标签、标题等。
Seaborn库:是基于Matplotlib的统计数据可视化库,提供了更高级的绘图功能和美观的图形样式。可以绘制热力图、箱线图、小提琴图等,适用于探索数据的分布和关系。

4.机器学习:

Scikit-learn库:提供了一系列常用的机器学习算法和工具,包括分类、回归、聚类、降维等任务。还提供了模型选择、模型评估和模型优化的功能。
Tensorflow库:是一个开源的深度学习框架,可以构建和训练神经网络模型。支持各种类型的神经网络,包括卷积神经网络、循环神经网络、深度神经网络等。

5.数据库操作:

Sqlite3库:是一个轻量级的嵌入式数据库,可以在Python中直接使用。可以创建、连接、查询和更新数据库,并支持事务操作。
Pymysql库:是一个Python的MySQL数据库驱动,可以通过Python连接和操作MySQL数据库。可以执行SQL查询、插入、更新、删除等操作。

下面是一些常用的Python数据分析与可视化库的例子:

1.数据处理库:

NumPy:用于处理多维数组和执行数值计算的基础库。
Pandas:提供了灵活的数据结构和数据分析工具,用于处理和分析结构化数据。

2.数据分析库:

SciPy:提供了一系列科学计算的功能,包括数值积分、优化、插值、线性代数等。
Statsmodels:用于执行统计模型估计和推断的库。
3.数据可视化库:

Matplotlib:提供了广泛的绘图功能,可以创建各种类型的图表,如线图、散点图、柱状图和饼图等。
Seaborn:建立在Matplotlib之上,提供了更高级的统计图表和美化选项。
4.机器学习库:

Scikit-learn:提供了一系列常用的机器学习算法和工具,如分类、回归、聚类、降维等。
TensorFlow:一个强大的开源机器学习库,用于构建和训练深度神经网络模型。
5.数据库操作库:

SQLite3:用于操作SQLite数据库的内置模块,可以进行数据的增删改查操作。
PyMySQL:用于操作MySQL数据库的库,提供了与数据库的连接、查询和更新等功能。
这些库在数据分析和可视化领域非常常用,可以根据具体需求选择合适的库来实现相应的功能。

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/9f5d09153d494828a3ae5ea54a578730.png

一.pandas库

官网https://www.pypandas.cn/

Pandas 是 Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据,广泛应用于数据分析领域,Pandas 适用于处理与 Excel 表类似的表格数据,以及有序和无序的时间序列数据等。
Pandas是一个强大的数据处理和分析库,它提供了高级数据结构和数据操作工具,使得数据的清洗、转换、分析和可视化变得更加简单和高效。下面是一些Pandas库的常见用法:

1.数据结构:

Series:类似于带有标签的一维数组,用于存储一列数据。
DataFrame:类似于二维表格,是一种灵活的数据结构,用于存储和操作结构化数据。
2.数据操作:

数据读取和写入:可以从各种数据源中读取数据,如CSV、Excel、数据库等,并将数据写入这些数据源。
数据清洗:可以处理缺失值、重复值、异常值等,并进行数据类型转换和数据格式化。
数据筛选和切片:可以根据条件筛选数据行或选择特定的列。
数据排序和排名:可以对数据进行排序和排名操作。
数据分组和聚合:可以按照某些列的值进行分组,并对每个组进行统计分析。
数据合并和连接:可以通过共享的列将多个数据集合并为一个数据集。
数据转换和重塑:可以进行数据的透视、堆叠、展开等操作,以满足不同的分析需求。

3.数据分析和统计:

描述性统计:可以计算数据的统计指标,如均值、中位数、标准差等。
数据透视表:可以根据某些列的值创建透视表,并进行数据汇总和分析。
数据可视化:可以使用Matplotlib或Seaborn等库进行数据可视化,绘制各种图表。
Pandas的强大功能使得数据分析人员能够更快速、高效地进行数据处理和分析工作,是数据分析领域的重要工具之一。

pandas库不仅可以做一些数据清洗的工作,还可以使用pandas作图,并且做图时,使用一行代码就可以轻松作图,详细的作图方法可以看代码中的注释

#导入pandas库  
import pandas as pd    
#生成一个Series  
s=pd.Series([1,3,3,4], index=list('ABCD'))    

#括号内不指定图表类型,则默认生成直线图  
s.plot()

在这里插入图片描述

柱形图

import pandas as pd
import matplotlib.pyplot as plt

data = {'chengshi': ['shanglin', 'beijing', 'nann', 'shanghai'],
        '人口': [2154, 2423, 1404, 1303]}
df = pd.DataFrame(data)

df.plot(x='chengshi', y='人口', kind='bar')

plt.show()

在这里插入图片描述
python技能树

  • 20
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值