Python数据分析 - 机器学习笔记:第一章数据分析 - 1.3.1.数据类型

本文是《Python全栈工程师》中数据分析专题的笔记,主要讲解了pandas的Series和DataFrame对象的创建,包括用列表、字典初始化,以及对象属性的赋值。还介绍了数据的读写操作,如使用read_csv读取文件,to_csv写入文件,以及显示特定列索引的方法。
摘要由CSDN通过智能技术生成

前言:本文是学习网易微专业的《python全栈工程师》 中的《数据分析 - 机器学习工程师》专题的课程笔记,欢迎学习交流。

一、课程目标
  • 掌握SeriesDataFrame对象的创建方法
  • 掌握读、写数据的方法
二、详情解读
2.1.Pandas
  • 安装:
    pip install pandas
    conda install pandas
  • 常用对象/数据类型
    Series
    DataFrame
2.1.1.SeriesDataFrame

创建Series对象

import numpy as np
import pandas as pd
# 比较数组与Series
g = np.array([27466.15, 24899.3, 19610.9, 19492.4, 178885.39, 17558.76, 15475.09, 12170.2])
gdp = pd.Series(g, index=['shanghai', 'beijing', 'guangzhou', 'shenzhen', 'tianjin', 'chongqing', 'suzhou', 'chengdu'])
print(gdp)

相当于用有意义的索引来标识数组
运行结果:
在这里插入图片描述
如果不给index传任何值,结果就会以数字作为下标

g2 = pd.Series(g)

运行结果:
在这里插入图片描述
用列表作为参数:

pd.Series(data=[100, 200, 300])

运行结果:
在这里插入图片描述
也可以是一个数字:

pd.Series(100, index=['a', 'b', 'c']

运行结果:
在这里插入图片描述
用字典创建Series对象:

gdp2 = pd.Series({"wuhan": 11912.6, "hangzhou": 11050.5, "nanjing": 10503})

运行结果:
在这里插入图片描述
Series对象的属性:
1.获取所有的索引:gdp.index
在这里插入图片描述
2.获取所有的值:gdp.values
在这里插入图片描述
3.给name属性赋值:

gdp.name = "GDP(hundred million RMB)"

运行结果:
在这里插入图片描述
4.给索引的name属性赋值:

gdp.index.name = "City Name"

运行结果:
在这里插入图片描述

2.2.DataFrame对象
2.2.1.创建DataFrame对象
gp = pd.DataFrame([
		[27466.15, 2419.70],
		[24899.30, 2172.90],
		[19610.90, 1350.11],
		[19492.60, 1137.87],
		[17885.39, 1562.12],
		[17558.76, 3016.55],
		[15475.09, 1375.00],
		[12170.20, 1591.76]
	 ])

运行结果:
在这里插入图片描述

2.2.2.给DataFrame对象的属性赋值
gp.index = ['SHANGHAI', 'BEIJING', 'GUANZHOU', 'SHENZHEN', 'TIANJIN', 'CHONGQING', 'SUZHOU', 'CHENGDU']
gp.columns = ['GDP', 'Population']

运行结果:
在这里插入图片描述
行索引标签与列索引标签:
在这里插入图片描述

gp = pd.DataFrame([
		[27466.15, 2419.70],
		[24899.30, 2172.90],
		[19610.90, 1350.11],
		[19492.60, 1137.87],
		[17885.39, 1562.12],
		[17558.76, 3016.55],
		index = ['SHANGHAI', 'BEIJING', 'GUANZHOU', 'SHENZHEN', 'TIANJIN', 'CHONGQING'],
		columns = ['GDP', 'Population'])

运行结果:
在这里插入图片描述

gp.index.name = 'City_Name'
gp.columns.name = 'Items'

运行结果:
在这里插入图片描述

2.2.3.DataFrame对象的创建方法二:
pd.DataFrame({
	"city": [
		"beijing", "beijing", "huhbei", "shanghai"
	],
	"marks": [100.00, 96.91, 82.57, 82.47]},
	index=["PKU", "Tsinghua", "WHU", "Fudan"]
)

结果如下:
在这里插入图片描述

2.3.读、写文件

pd.read_
df.to_

读的方法有很多,如下所示:
在这里插入图片描述
写的方法有如下所示:
在这里插入图片描述
比如:

# csv文件
df = pd.read_csv('./datasets/experiment.csv')
df

运行结果:
在这里插入图片描述
用下面的方法可以只显示一列索引:

df = pd.read_csv('.dastasets/experiment.csv', index_col=0)
df.head() # 不写参数时,默认读取前面5行数据

运行结果:
在这里插入图片描述
通过pd.read_csv?可以查找read_csv方法的使用参数:
在这里插入图片描述
将读取的数据另存为指定的文件类型:
df保存为xlsx文件,可以安装Excel第三方模块,
xlwt用于操作.xls文件,
openpyxlxlsxwriter用于操作.xlxs文件,
xlrd用于操作Excel文件

安装:注意在jupyter下安装时,要添加感叹号。

!pip install xlwt openpyxl xlsxwriter xlrd

保存为xlsx类型:

df.to_excel('./datasets/data.xlsx')

jupyter下查看/datasets目录下是否有文件data.xlsx。下面是linux的查看命令

!ls ./datasets

在这里插入图片描述

# 读Excel文件
df = pd.read_excel('./datasets/data.xlsx', index_col=0)
df.head(7)

运行结果:
在这里插入图片描述

三、课程小结
  • 01 Series DataFrame
  • 02 读、写文件
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值