Python数学建模与分析——Pandas速成+数据理解

像一只黄油飞

已于 2024-07-19 22:53:32 修改

阅读量306

点赞数 3

分类专栏： Python数学建模与分析文章标签：数学建模 python 开发语言笔记程序人生机器学习数据分析

于 2024-07-14 08:55:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w2663772417/article/details/140412047

版权

Python数学建模与分析专栏收录该内容

6 篇文章 1 订阅

订阅专栏

个人学习笔记，课程为Python数学建模与分析：基础入门、数据处理、算法编程、高级绘图、建模实战！

目录

一、Pandas速成

二、数据导入

三、数据理解

3.数据属性和类型

4.描述性统计

5.数据分组分布（适用于分类算法）

6.数据属性相关性

7.数据分布分析

四、数据可视化

（1）直方图

（2）密度图

（3）箱线图

（1）相关矩阵图

（2）散点矩阵图

文中引入的csv文件：

链接：https://pan.baidu.com/s/1NWLzgAir70LQKUxv74lfIg?pwd=d2n5
提取码：d2n5

一、Pandas速成

1.Series

#series:一维数组: list
import numpy as np
import pandas as pd
myarray =np.array([1,2,3])
index = ['a','b','c']
myseries = pd.Series(myarray, index=index)
print(myseries)
print('series的第一个元素')
print(myseries[0])
print('series的c index的元素：')
print(myseries['c'])

2.Dataframe

#Dataframe:可以指定行和列的二维数组
myarray = np.array([[1,2,3], [2,3,4], [3,4,5]])
rowindex = ['row1','row2','row3']
colname = ['col1','col2','col3']
mydataframe = pd.DataFrame(data=myarray, index=rowindex, columns=colname)
print(mydataframe)
print('访问col3的数据')
print(mydataframe['col3'])

二、数据导入

1. csv

特征：以逗号分割文件头：字段属性

#csv特征： 以逗号分割 文件头：字段属性
from csv import reader
import numpy as np
filename='pima.csv'
with open(filename, 'rt') as raw_data:
    readers = reader(raw_data, delimiter=',')
    x = list(readers)
    data = np.array(x).astype('float')
    print(data.shape)

2.Pandas导入

#pandas导入
from pandas import read_csv
filename = 'pima.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.shape)

3.Numpy导入

#numpy导入
from numpy import loadtxt
filename = 'pima.csv'
with open(filename, 'rt') as raw_data:
    data = loadtxt(raw_data, delimiter=',')
    print(data.shape)

三、数据理解

1.查看数据

from pandas import read_csv
filename = 'pima.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
head = data.head(10)
#查看数据
print(head)

2.数据维度

#数据的维度
print(data.shape)

3.数据属性和类型

#数据的属性和类型
print(data.dtypes)

4.描述性统计

#描述性统计
print(data.describe())

5.数据分组分布（适用于分类算法）

#数据的分布
print(data.groupby('class').size())

6.数据属性相关性

#数据的相关性:皮尔逊相关系数
print(data.corr(method='pearson'))

7.数据分布分析

#数据的分布分析：高斯分布
print(data.skew())

四、数据可视化

1.单一图表

（1）直方图

#直方图
from pandas import read_csv
import matplotlib.pyplot as plt
filename = 'pima.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
data.hist()
plt.show()

（2）密度图

#密度图
from pandas import read_csv
import matplotlib.pyplot as plt
filename = 'pima.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
data.plot(kind='density',subplots=True,layout=(3,3),sharex=False)
plt.show()

（3）箱线图

#箱线图
from pandas import read_csv
import matplotlib.pyplot as plt
filename = 'pima.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
data.plot(kind='box',subplots=True,layout=(3,3),sharex=False)
plt.show()

2.多重图表

（1）相关矩阵图

#相关矩阵图
from pandas import read_csv
import numpy as np
import matplotlib.pyplot as plt
filename = 'pima.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
correlations = data.corr()
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations,vmin=-1,vmax=1)
fig.colorbar(cax)
ticks = np.arange(0,9,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()

（2）散点矩阵图

#散点矩阵图
from pandas import read_csv
from pandas.plotting import scatter_matrix
import numpy as np
import matplotlib.pyplot as plt
filename = 'pima.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
scatter_matrix(data)
plt.show()

像一只黄油飞

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
Python数学建模与分析——Pandas速成+数据理解

个人学习笔记，课程为。
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。