python的5种基本数据类型
字符串
数值
布尔类型
变量赋值
空值
控制语句三类
条件控制语句
循环语句
条件循环
复杂数据类型
元组
列表
字典
函数
Numpy速成
import numpy as np
myarray = np.array([1, 2, 3])
print(myarray)
print(myarray.shape) # 一维数组:一行三列
# 多维数组
myarray = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]])
print(myarray) # 输出矩阵
print(myarray.shape) # 输出多少行多少列
# 访问数据
print('第一行数据:%s' % myarray[0])
print('最后一行:%s' % myarray[-1])
print('整列(第3列)的数据:%s' % myarray[:, 2]) # 访问全部的行,只取第3列
Pandas速成
# pandas速成
# series:一维数组;类似于 list
import numpy as np
import pandas as pd
myarray = np.array([1, 2, 3])
index = ['a', 'b', 'c']
myseries = pd.Series(myarray, index=index) # 第一个参数是数据,第二个参数是索引
print(myseries)
print('series的第一个元素:')
print(myseries[1])
print('series的c index的元素:')
print(myseries['c'])
# Dataframe:可以指定行和列的二维数组
myarray = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]]) # 类型(x,y)
rowindex = ['row1', 'row2', 'row3'] # 设置行的地址
colname = ['col1', 'col2', 'col3'] # 设置列
mydataframe = pd.DataFrame(data=myarray, index=rowindex, columns=colname)
# 数据使用的是myarray,index使用rowindex,colmns使用colname
print(mydataframe)
print('访问col3的数据')
print(mydataframe['col3'])
#输出的结果:
# col1 col2 col3
# row1 1 2 3
# row2 2 3 4
# row3 3 4 5
# 访问col3的数据
# row1 3
# row2 4
# row3 5
# Name: col3, dtype: int32
数据导入
数据理解:了解数据的特征
数据可视化
数据导入代码
# 数据的导入
# 三种方式
# csv特征:一般都以 ,分隔 文件头:字段属性
# 用python的方法导入,用得不多
from csv import reader
import numpy as np
filename = 'E:/Pycharm/PyCharmProject/data/pima_data.csv.csv'
with open(filename, 'rt') as raw_data:
# 打开的是filename这个文件;rt相当于防止乱码;使用这种方法打开可以防止没有关闭等情况
readers = reader(raw_data, delimiter=',') # 读取数据并用逗号分隔
x = list(readers) # 把数据存入x中
data = np.array(x).astype('float')
print(data.shape)
Pandas导入 (建议使用)
numpy导入
查看数据 查看数据的维度、属性、类型、描述性统计
(描述性统计比较重要,一般放论文中)
数据分布
数据的相关性:
一般使用皮尔逊相关系数,度量两个变量的相关程度(介于0与1之间,1为完全相关,-1完全负相关,0为不相关)
数据的分布分析:
高斯分布(一般不做这个分析,默认假定符合高斯分布;所得的结果可以判断左偏或者右偏,越靠近0偏差越小)