pandas基础学习教程笔记 (1)

这篇博客介绍了pandas库的基础知识,包括库的导入、数据的导入导出、创建数据框、查看与检查数据、数据选取以及数据清洗。内容涵盖了创建随机数据框、查看数据框的统计信息、选取特定列、处理缺失值等操作。
摘要由CSDN通过智能技术生成

pandas基础学习

库的导入

函数 说明
df 任意的pandas DataFrame(数据框)对象
s 任意的pandas Series(数组)对象

pandas和numpy是用Python做数据分析最基础且最核心的库

import pandas as pd # 导入pandas库并简写为pd
import numpy as np # 导入numpy库并简写为np

数据的导入

函数 说明
pd.read_csv(filename) 导入csv格式文件中的数据
pd.read_table(filename) 导入有分隔符的文本 (如TSV) 中的数据
pd.read_excel(filename) 导入Excel格式文件中的数据
pd.read_sql(query, connection_object) 导入SQL数据表/数据库中的数据
pd.read_json(json_string) 导入JSON格式的字符,URL地址或者文件中的数据
pd.read_html(url) 导入经过解析的URL地址中包含的数据框 (DataFrame) 数据
pd.read_clipboard() 导入系统粘贴板里面的数据
pd.DataFrame(dict) 导入Python字典 (dict) 里面的数据,其中key是数据框的表头,value是数据框的内容。

数据的导出

函数 说明
df.to_csv(filename) 将数据框 (DataFrame)中的数据导入csv格式的文件中
df.to_excel(filename) 将数据框 (DataFrame)中的数据导入Excel格式的文件中
df.to_sql(table_name,connection_object) 将数据框 (DataFrame)中的数据导入SQL数据表/数据库中
df.to_json(filename) 将数据框 (DataFrame)中的数据导入JSON格式的文件中

创建对象

创建一个5列10行的由随机浮点数组成的数据框 DataFrame

pd.DataFrame(np.random.rand(10,5))

从一个可迭代的对象 my_list 中创建一个数据组

my_list = ['Kesci',100,'欢迎来到科赛网']
pd.Series(my_list)
'''
0      Kesci
1        100
2    欢迎来到科赛网
dtype: object
'''

添加一个日期索引 index

df = pd.DataFrame(np.random.rand(10,5))
df.index = pd.date_range('2017/1/1', periods=df.shape[0])
df

数据的查看与检查

查看数据框的前n行

df = pd.DataFrame(np.random.rand(10,5))
df.head(3)

查看数据框的最后n行

df = pd.DataFrame(np.random.rand(10,5))
df.tail(3)

查看数据框的行数与列数

df = pd.DataFrame(np.random.rand(10,5))
df.shape

查看数据框 (DataFrame) 的索引、数据类型及内存信息

df = pd.DataFrame(np.random.rand(10,5))
df.info()
'''
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
0    10 non-null float64
1    10 non-null float64
2    10 non-null float64
3    10 non-null float64
4    10 non-null float64
dtypes: float64(5)
memory usage: 480.0 bytes
'''

对于数据类型为数值型的列,查询其描述性统计的内容

df.describe()

查询每个独特数据值出现次数统计

s = pd.Series([1,2,3,3,4,np.nan,5,5,5,6,7])
s.value_counts(dropna=False)
'''
 5.0    3
 3.0    2
 7.0    1
 6.0    1
 NaN    1
 4.0    1
 2.0    1
 1.0    1
dtype: int64
'''

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据全样⽽⾮抽样原理_⼀⽂带你了解什么是⼤数据 科技是第⼀⽣产⼒。进⼊世纪的第⼀个20年以来,⼈们越来越多地将关注的领域集中在⼤数据、⼈⼯智能、云计算、物联⽹、移动互联 ⽹、GIS、AR与VR、5G、区块链、数字化与智慧化等,尤其为最近的风⼝"ABC"。笔者也⼀直在关注这⽅⾯的研究与学习,最近趁着 有时间,将把⼀些科普性的概念写出来,以帮助关注该领域的⼈更好地理解这⼏个热点领域的知识,本次分享将介绍⼀下⼤数据的产⽣、概 念、影响以及技术⽀撑。 1、Why.为什么会产⽣⼤数据? 我们遇到⼀个概念或者⼀个问题的思路就是去问"为什么?"同样,提起到⼤数据,我们会想,之前为什么不是⼤数据时代(DT),为什么现 在是?这⾥我分享⼏点我的看法。⼀个⽅⾯,产⽣⼤数据的⼀个基础是我们的计算存储技术发⽣了⾰命性的变化,从数据⼤⼩的单位来看, 数据⼤⼩的单位可以分为Bit 现在我们称为⼤数据,我相信单位⾄少是PB级别的,因为TB已经在我们的⽣活中很常见。存储技术的发展使得计算机的存储能⼒得到了飞 速的进步,我们不会再像以前那样为了节省空间会清理掉部分的数据,⽽是基本上在那个地⽅放着。基于⾜够性价⽐、⾜够低成本的存储技 术,这使得数据变得"⼤"有了最基本的⽀撑。另⼀个⽅⾯,数据产⽣的主体与范围发⽣了重要的变化,之前数据的产⽣只靠计算⼯作⼈员 与运营⼈员的输⼊,⽽现在随着⾃媒体的发展,⼈⼈都是数据的⽣产者,数据的量呈指数增长,最近⼜随着物联⽹、感知监测设备、GIS等 技术的发展,不仅⼈是数据产⽣的组成部分,其他⾮⼈物体、地⾯信息、空⽓检测信息都能作为数据产⽣源,并且⽆时⽆刻都在产⽣数据。 总结来说,过去我们对数据做"减法",现在我们不减,⽽且持续在做"加法"。 2、what,⼤数据的概念及特征 ⼤数据主要体现在⼀个"⼤"⼤字上⾯,谈及⼤数据,我们经常⽤"4V"来描述,第⼀,Volume,即容量⼤、体积⼤,正如前⾯所说,⼤ 数据的单位应该以PB起步,企业甚⾄可以到EB。第⼆个,Velocity,即⾼速,速率快,⼤数据产⽣的速度是很快的,有个知名的说法,即⼤ 数摩尔定律,据测算,现在每两年数据就会翻⼀倍,这个增长量是及其可怕的。第三个,Variety多样性,之前产⽣的数据多半是结构化的 数据,⽐如多是数值型,⽽现在越来越多产⽣图⽚,⾳频,视频,⽹页等半结构化的数据数据类型的多样性也是⼤数据的重要体现。第四 个,Value,即有价值但⼜密度低,⼤数据的背后藏着丰富的商业价值,但是因为海量数据,真正有价值的数据却很难挖掘,数据的价值密度 很低。 3、⼤数据的影响 ⼤数据的影响可以主要概括为,全样⽽⾮抽样,效率⽽⾮准确,相关⽽⾮推断。以前我们获得数据很难,我们会抽样作分析,现在随着⼤数 据的⽀撑,我们做全样研究很简洁⽅便。基于之前的抽样研究,我们往往追求模型的准确性,⽽忽略了效率,⼤数据的时代,分秒必争,在 这⼀秒,数据是有价值的,⽽到下⼀秒,数据就会失去价值,所以⼤数据时代,效率是王道。最后我们不会再关注特征与特征之间,或者说 变量与变量之间的因果推断,⽽是发现他们相关即可,这在智能推送过程中显得尤为重要。 4、⼤数据的技术⽀撑 ⼤数据的技术⽀撑主要体现在四个⽅⾯,主要是数据采集,数据存储与管理、数据处理与分析、数据隐私与安全。其中最为核⼼的是存储与 处理,两者都采⽤分布式原理,即分布式存储,主要有HDFS,NoSQL,NewSQL;分布式处理,即MapReduce。数据的存储利⽤分布式⽂ 件系统,云数据库,实现对结构化、半结构化和⾮结构化海量数据进⾏存储。⽽数据处理利⽤分布式并⾏编程模型,集合机器学习数据挖 掘算法,实现对海量数据的处理与分析,并对分析结构进⾏可视化呈现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值