2、3、4Numpy速成、Pandas速成、数据导入代码、Pandas导入 、numpy导入查看数据 、查看数据的维度、属性、类型、描述性统计、查看数据分布【pima_data.csv数据集】

本文介绍了Python中的基本数据类型,包括字符串、数值、布尔、变量赋值以及空值,同时涵盖了控制语句(条件控制和循环)、复杂数据类型(元组、列表、字典和函数)。此外,还快速介绍了Numpy和Pandas在处理数组和数据分析中的应用,如数据导入、查看、分布分析和相关性计算。
摘要由CSDN通过智能技术生成

python的5种基本数据类型

        字符串 

        数值

 

        布尔类型

 

        变量赋值 

        空值

控制语句三类

        条件控制语句

        循环语句

 

        条件循环 

复杂数据类型

        元组 

        列表

 

 

        字典

        函数

 

Numpy速成 

import numpy as np

myarray = np.array([1, 2, 3])
print(myarray)
print(myarray.shape)  # 一维数组:一行三列

# 多维数组
myarray = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]])
print(myarray)  # 输出矩阵
print(myarray.shape)  # 输出多少行多少列

# 访问数据
print('第一行数据:%s' % myarray[0])
print('最后一行:%s' % myarray[-1])
print('整列(第3列)的数据:%s' % myarray[:, 2])  # 访问全部的行,只取第3列

Pandas速成

# pandas速成
# series:一维数组;类似于 list
import numpy as np
import pandas as pd

myarray = np.array([1, 2, 3])
index = ['a', 'b', 'c']
myseries = pd.Series(myarray, index=index)  # 第一个参数是数据,第二个参数是索引
print(myseries)
print('series的第一个元素:')
print(myseries[1])
print('series的c index的元素:')
print(myseries['c'])

# Dataframe:可以指定行和列的二维数组
myarray = np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]])  # 类型(x,y)
rowindex = ['row1', 'row2', 'row3']  # 设置行的地址
colname = ['col1', 'col2', 'col3']  # 设置列
mydataframe = pd.DataFrame(data=myarray, index=rowindex, columns=colname)
# 数据使用的是myarray,index使用rowindex,colmns使用colname
print(mydataframe)
print('访问col3的数据')
print(mydataframe['col3'])
#输出的结果:
#       col1  col2  col3
# row1     1     2     3
# row2     2     3     4
# row3     3     4     5
# 访问col3的数据
# row1    3
# row2    4
# row3    5
# Name: col3, dtype: int32

数据导入 

数据理解:了解数据的特征 

数据可视化

 

数据导入代码

# 数据的导入
# 三种方式
# csv特征:一般都以 ,分隔 文件头:字段属性
# 用python的方法导入,用得不多

from csv import reader
import numpy as np

filename = 'E:/Pycharm/PyCharmProject/data/pima_data.csv.csv'
with open(filename, 'rt') as raw_data:
    # 打开的是filename这个文件;rt相当于防止乱码;使用这种方法打开可以防止没有关闭等情况
    readers = reader(raw_data, delimiter=',')  # 读取数据并用逗号分隔
    x = list(readers)  # 把数据存入x中
    data = np.array(x).astype('float')
    print(data.shape)

Pandas导入 (建议使用)

numpy导入 

查看数据 查看数据的维度、属性、类型、描述性统计

        (描述性统计比较重要,一般放论文中)

数据分布 

数据的相关性:

        一般使用皮尔逊相关系数,度量两个变量的相关程度(介于0与1之间,1为完全相关,-1完全负相关,0为不相关) 

数据的分布分析:

        高斯分布(一般不做这个分析,默认假定符合高斯分布;所得的结果可以判断左偏或者右偏,越靠近0偏差越小)

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值