1. explode
explode 用于将一行数据展开成多行。比如说 dataframe 中某一行其中一个元素包含多个同类型的数据,若想要展开成多行进行分析,这时候 explode 就派上用场,而且只需一行代码,非常节省时间。
用法:
DataFrame.explode(self, column: Union[str, Tuple])
参数作用:
- column :str 或 tuple
以下表中第三行、第二列为例,展开 [2,3,8]:
# 先创建表
id = ['a','b','c']
measurement = [4,6,[2,3,8]]
day = [1,1,1]
df1 = pd.DataFrame({'id':id, 'measurement':measurement, 'day':day})
df1
使用 explode 轻松将 [2,3,8] 转换成多行,且行内其他元素保持不变。
df1.explode('measurement').reset_index(drop=True)
2. Nunique
Nunique 用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique 能快速生成结果。
用法:
Series.nunique(dropna=True)
# 或者
DataFrame.nunique(axis=0, dropna=True)
参数作用:
- axis:int 型,0 代表行,1 代表列,默认 0;
- dropna:bool 类型,默认为 True,计数中不包括 NaN;
先创建一个 df:
values_1 = np.random.randint(10, size=10)
values_2 = np.random.randint(10, size=10)
years = np.arange(2010,2020)
groups = ['A','A','B','A','B','B','C','A','C','C']
df = pd.DataFrame({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2})
df
对 year 列进行唯一值计数:
df.year.nunique()
输出:10 对整个 dataframe 的每一个字段进行唯一值计数:
df.nunique()
3. infer_objects
infer_objects 用于将 object 类型列推断为更合适的数据类型。
用法:
# 直接将df或者series推断为合适的数据类型
DataFrame.infer_objects()
pandas 支持多种数据类型,其中之一是 object 类型。object 类型包括字符串和混合值(数字及非数字)。
object 类型比较宽泛,如果可以确定为具体数据类型,则不建议用 object。
df = pd.DataFrame({"A": ["a", 1, 2, 3]})
df = df.iloc[1:]
df
df.dtypes
使用 infer_objects 方法将 object 推断为 int 类型:
df.infer_objects().dtypes
4. memory_usage
memory_usage 用于计算 dataframe 每一列的字节存储大小,这对于大数据表非常有用。
用法:
DataFrame.memory_usage(index=True, deep=False)
参数解释:
index:指定是否返回 df 中索引字节大小,默认为 True,返回的第一行即是索引的内存使用情况;
deep:如果为 True,则通过查询 object 类型进行系统级内存消耗来深入地检查数据,并将其包括在返回值中。
首先创建一个 df,共 2 列,1000000 行。
df_large = pd.DataFrame({'A': np.random.randn(1000000),
'B': np.random.randint(100, size=1000000)})
df_large.shape
返回每一列的占用字节大小:
df_large.memory_usage()
第一行是索引 index 的内存情况,其余是各列的内存情况。
5. replace
顾名思义,replace 是用来替换 df 中的值,赋以新的值。
用法:
DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
参数解释:
- to_replace:被替换的值
- value:替换后的值
- inplace:是否要改变原数据,False 是不改变,True 是改变,默认是 False
- limit:控制填充次数
- regex:是否使用正则,False 是不使用,True 是使用,默认是 False
- method:填充方式,pad,ffill,bfill 分别是向前、向前、向后填充
创建一个 df:
values_1 = np.random.randint(10, size=10)
values_2 = np.random.randint(10, size=10)
years = np.arange(2010,2020)
groups = ['A','A','B','A','B','B','C','A','C','C']
df = pd.DataFrame({'group':groups, 'year':years, 'value_1':values_1, 'value_2':values_2})
df
将 A 全部替换为 D:
df.replace('A','D')
将 B 替换为 E,C 替换为 F:
df.replace({'B':'E','C':'F'})
这里给大家分享一份Python全套学习资料,包括学习路线、软件、源码、视频、面试题等等,都是我自己学习时整理的,希望可以对正在学习或者想要学习Python的朋友有帮助!
CSDN大礼包:全网最全《全套Python学习资料》免费分享🎁
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
1️⃣零基础入门
① 学习路线
对于从来没有接触过Python的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
② 路线对应学习视频
还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
③练习题
每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
因篇幅有限,仅展示部分资料
2️⃣国内外Python书籍、文档
① 文档和书籍资料
3️⃣Python工具包+项目源码合集
①Python工具包
学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
②Python实战案例
光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
③Python小游戏源码
如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
4️⃣Python面试题
我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
5️⃣Python兼职渠道
而且学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。
上述所有资料 ⚡️ ,朋友们如果有需要 📦《全套Python学习资料》的,可以扫描下方二维码免费领取 🆓
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓