pandas初体验
去
-阿呆-
一分耕耘,一分收获。
展开
-
第8关:层次化索引
相关知识层次化索引层次化索引(hierarchical indexing)是pandas的一项重要功能,它使我们能在一个轴上拥有多个(两个以上)索引级别。请看以下例子:In[1]:data = Series(np.random.randn(10), index = [[‘a’, ‘a’, ‘a’, ‘b’, ‘b’, ‘b’, ‘c’, ‘c’, ‘d’, ‘d’ ],[1,2,3,1,2,3,1,2,2,3]])In[2]:dataOut[2]:a 1 0.1692392 0.原创 2022-04-24 15:55:54 · 1751 阅读 · 1 评论 -
第7关:数据的基本操作——去重
*相关知识duplicated()DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行。具体用法如下:In[1]: df = DataFrame({‘k1’:[‘one’]*3 + [‘two’]4, ‘k2’:[1,1,2,3,3,4,4]})In[2]: dfOut[2]:k1 k20 one 11 one 12 one 23 two 34 two 35 two 46 two 4In[3]:原创 2022-04-24 15:55:40 · 1907 阅读 · 0 评论 -
第6关:数据的基本操作——算术运算
相关知识算术运算(+,-,,/)DataFrame中的算术运算是df中对应位置的元素的算术运算,如果没有共同的元素,则用NaN代替。In[5]: df1 = DataFrame(np.arange(12.).reshape((3,4)),columns=list(‘abcd’))In[6]: df2 = DataFrame(np.arange(20.).reshape((4,5)),columns=list(‘abcde’))In[9]: df1+df2Out[9]:a b c d原创 2022-04-24 15:55:23 · 2191 阅读 · 0 评论 -
第5关:数据的基本操作——删除
相关知识删除指定轴上的项即删除Series的元素或DataFrame的某一行(列)的意思,我们可以通过对象的drop(labels, axis=0)方法实现此功能。删除Series的一个元素:In[11]: ser = Series([4.5,7.2,-5.3,3.6], index=[‘d’,‘b’,‘a’,‘c’])In[13]: ser.drop(‘c’)Out[13]:d 4.5b 7.2a -5.3dtype: float64删除DataFrame的行或列:原创 2022-04-24 15:55:00 · 2327 阅读 · 0 评论 -
第4关:数据的基本操作——排序
相关知识本关我们将学习处理Series和DataFrame中的数据的基本手段,我们将会探讨Pandas最为重要的一些功能。对索引进行排序Series用sort_index()按索引排序,sort_values()按值排序;DataFrame也是用sort_index()和sort_values()。In[73]: obj = Series(range(4), index=[‘d’,‘a’,‘b’,‘c’])In[74]: obj.sort_index()Out[74]:a 1b原创 2022-04-24 15:54:44 · 2355 阅读 · 1 评论 -
第3关:读取CSV格式数据
*相关知识在使用机器学习工具包对数据进行修改、探索和分析之前,我们必须先讲外部数据导入。使用Pandas导入数据比Numpy要容易。在这里我们将使用英国降雨数据,数据已下好并放在本实训的当前文件夹。读取CSVReading a csv into Pandas.如果数据集中有中文的话,最好在里面加上 encoding = ‘gbk’ ,以避免乱码问题。后面的导出数据的时候也一样。df = pd.read_csv(‘uk_rain_2014.csv’, header=0)这里我们从csv文件里导入了原创 2022-04-24 15:54:27 · 3549 阅读 · 0 评论 -
第2关:了解数据处理对象-DataFrame
相关知识DataFrame是一个表格型的数据结构,是以一个或多个二维块存放的数据表格(层次化索引),DataFrame既有行索引还有列索引,它有一组有序的列,每列既可以是不同类型(数值、字符串、布尔型)的数据,或者可以看做由Series组成的字典。DataFrame创建:dictionary = {‘state’:[‘0hio’,‘0hio’,‘0hio’,‘Nevada’,‘Nevada’],‘year’:[2000,2001,2002,2001,2002],‘pop’:[1.5,1.7,3.6原创 2022-04-24 15:54:11 · 4441 阅读 · 0 评论 -
第1关:了解数据处理对象--Series
“”“相关知识Pandas是为了解决数据分析任务而创建的,纳入了大量的库和标准数据模型,提供了高效地操作大型数据集所需的工具。对于Pandas包,在Python中常见的导入方法如下:from pandas import Series,DataFrameimport pandas as pdPandas中的数据结构Series: 一维数组,类似于Python中的基本数据结构list,区别是Series只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。就像数据库中的列数据;Data原创 2022-04-24 15:53:27 · 5282 阅读 · 0 评论