这两周的热搜除了某优质偶像的婚姻事件外,最引人关注的可能就是“薇娅被追缴并处罚13.41亿元”
13.41亿元对于我们普通人来说大致是个什么概念呢,即便你月入过万,不吃不喝也要努力上1万多年
而这次事件的线索正是税务部门通过运用大数据的分析评估技术获得的,可见数据分析的应用已越来越广、作用也越来越大
这期要为大家介绍如何使用Excel 和 Python进行部分数据的选择,选择方式可分为普通索引和切片索引
案例数据继续使用UCI的红酒质量评分数据集
需要完成的任务是选择该数据集的部分数据
知识点17:普通索引选择部分数据
Excel
鼠标单击拖拽选择所需区域
Python
import pandas as pd #载入pandas库
data = pd.read_excel('C:/Users/dell-pc/Desktop/data.xlsx') #读取Excel文件数据
data.set_index("id", inplace = True) #以id列设置为索引
data.head(5) #显示数据集的前5行
#选择连续数据区域
data_1 = data.loc["id10001":"id10010", "fixed acidity":"chlorides"] #使用loc函数选择前十行,从"fixed acidity"列到"chlorides"列的数据,loc是location的简称,参数是行的名称和列的名称
data_1 #显示data_1
#选择非连续数据区域
data_1 = data.loc[["id10001","id10010"], ["fixed acidity","chlorides"]] #使用loc函数选择第一行和第十行,"fixed acidity"列和"chlorides"列的数据
data_1 #显示data_1
知识点18:切片索引选择部分数据
Python
#选择连续数据区域
data_2 = data.iloc[0:10, 0:5] #使用iloc函数选择前十行,从"fixed acidity"列到"chlorides"列的数据,i是integer的简称,参数是行的序号和列的序号,但需要注意的是“左闭右开”,比如若要选择前十行数据,参数应为0:10,而非0:9
data_2 #显示data_2
#选择非连续数据区域
data_2 = data.iloc[[0,9], [0,4]] #使用iloc函数选择第一行和第十行,"fixed acidity"列和"chlorides"列的数据
data_2 #显示data_2