Python数据分析 - 机器学习笔记：第一章数据分析 - 1.3.1.数据类型

最新推荐文章于 2024-09-15 17:08:32 发布

WinvenChang

最新推荐文章于 2024-09-15 17:08:32 发布

阅读量180

点赞数

分类专栏： Python全栈工程师学习笔记文章标签：数据分析 Series DataFrame pandas读写数据

本文链接：https://blog.csdn.net/u014257214/article/details/107571266

版权

Python全栈工程师学习笔记专栏收录该内容

173 篇文章 24 订阅

订阅专栏

本文是《Python全栈工程师》中数据分析专题的笔记，主要讲解了pandas的Series和DataFrame对象的创建，包括用列表、字典初始化，以及对象属性的赋值。还介绍了数据的读写操作，如使用read_csv读取文件，to_csv写入文件，以及显示特定列索引的方法。

摘要由CSDN通过智能技术生成

前言：本文是学习网易微专业的《python全栈工程师》中的《数据分析 - 机器学习工程师》专题的课程笔记，欢迎学习交流。

一、课程目标

掌握Series和DataFrame对象的创建方法
掌握读、写数据的方法

二、详情解读

2.1.`Pandas`

安装：
– pip install pandas
– conda install pandas
常用对象/数据类型
– Series
– DataFrame

2.1.1.`Series`和`DataFrame`

创建Series对象

import numpy as np
import pandas as pd
# 比较数组与Series
g = np.array([27466.15, 24899.3, 19610.9, 19492.4, 178885.39, 17558.76, 15475.09, 12170.2])
gdp = pd.Series(g, index=['shanghai', 'beijing', 'guangzhou', 'shenzhen', 'tianjin', 'chongqing', 'suzhou', 'chengdu'])
print(gdp)

相当于用有意义的索引来标识数组
运行结果：
在这里插入图片描述
如果不给index传任何值，结果就会以数字作为下标

g2 = pd.Series(g)

运行结果：
在这里插入图片描述
用列表作为参数：

pd.Series(data=[100, 200, 300])

运行结果：
在这里插入图片描述
也可以是一个数字：

pd.Series(100, index=['a', 'b', 'c']

运行结果：
在这里插入图片描述
用字典创建Series对象：

gdp2 = pd.Series({"wuhan": 11912.6, "hangzhou": 11050.5, "nanjing": 10503})

运行结果：
在这里插入图片描述
Series对象的属性：
1.获取所有的索引：gdp.index

2.获取所有的值：gdp.values

3.给name属性赋值：

gdp.name = "GDP(hundred million RMB)"

运行结果：
在这里插入图片描述
4.给索引的name属性赋值：

gdp.index.name = "City Name"

运行结果：
在这里插入图片描述

2.2.`DataFrame`对象

2.2.1.创建`DataFrame`对象

gp = pd.DataFrame([
		[27466.15, 2419.70],
		[24899.30, 2172.90],
		[19610.90, 1350.11],
		[19492.60, 1137.87],
		[17885.39, 1562.12],
		[17558.76, 3016.55],
		[15475.09, 1375.00],
		[12170.20, 1591.76]
	 ])

运行结果：
在这里插入图片描述

2.2.2.给`DataFrame`对象的属性赋值

gp.index = ['SHANGHAI', 'BEIJING', 'GUANZHOU', 'SHENZHEN', 'TIANJIN', 'CHONGQING', 'SUZHOU', 'CHENGDU']
gp.columns = ['GDP', 'Population']

运行结果：
在这里插入图片描述
行索引标签与列索引标签：

gp = pd.DataFrame([
		[27466.15, 2419.70],
		[24899.30, 2172.90],
		[19610.90, 1350.11],
		[19492.60, 1137.87],
		[17885.39, 1562.12],
		[17558.76, 3016.55],
		index = ['SHANGHAI', 'BEIJING', 'GUANZHOU', 'SHENZHEN', 'TIANJIN', 'CHONGQING'],
		columns = ['GDP', 'Population'])

运行结果：
在这里插入图片描述

gp.index.name = 'City_Name'
gp.columns.name = 'Items'

运行结果：
在这里插入图片描述

2.2.3.`DataFrame`对象的创建方法二：

pd.DataFrame({
	"city": [
		"beijing", "beijing", "huhbei", "shanghai"
	],
	"marks": [100.00, 96.91, 82.57, 82.47]},
	index=["PKU", "Tsinghua", "WHU", "Fudan"]
)

结果如下：
在这里插入图片描述

2.3.读、写文件

pd.read_
df.to_

读的方法有很多，如下所示：
在这里插入图片描述
写的方法有如下所示：

比如：

# csv文件
df = pd.read_csv('./datasets/experiment.csv')
df

运行结果：
在这里插入图片描述
用下面的方法可以只显示一列索引：

df = pd.read_csv('.dastasets/experiment.csv', index_col=0)
df.head() # 不写参数时，默认读取前面5行数据

运行结果：
在这里插入图片描述
通过pd.read_csv?可以查找read_csv方法的使用参数：

将读取的数据另存为指定的文件类型：
将df保存为xlsx文件，可以安装Excel第三方模块，
xlwt用于操作.xls文件，
openpyxl或xlsxwriter用于操作.xlxs文件，
xlrd用于操作Excel文件

安装：注意在jupyter下安装时，要添加感叹号。

!pip install xlwt openpyxl xlsxwriter xlrd

保存为xlsx类型：

df.to_excel('./datasets/data.xlsx')

在jupyter下查看/datasets目录下是否有文件data.xlsx。下面是linux的查看命令

!ls ./datasets

在这里插入图片描述

# 读Excel文件
df = pd.read_excel('./datasets/data.xlsx', index_col=0)
df.head(7)

运行结果：
在这里插入图片描述

三、课程小结

01 Series DataFrame
02 读、写文件

WinvenChang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python数据分析 - 机器学习笔记：第一章数据分析 - 1.3.1.数据类型

一、课程目标

二、详情解读

2.1.Pandas

2.1.1.Series和DataFrame

2.2.DataFrame对象

2.2.1.创建DataFrame对象

2.2.2.给DataFrame对象的属性赋值

2.2.3.DataFrame对象的创建方法二：

2.3.读、写文件

三、课程小结

2.1.`Pandas`

2.1.1.`Series`和`DataFrame`

2.2.`DataFrame`对象

2.2.1.创建`DataFrame`对象

2.2.2.给`DataFrame`对象的属性赋值

2.2.3.`DataFrame`对象的创建方法二：