这是我的第68篇原创文章,关于Python语言和数据科学。
阅读完本文,你可以知道:
1 pandas库apply函数的实用(向量化操作)
"学以致用,活学活用"
第一个数据科学小技巧:pandas库apply函数。
pandas库apply函数是用于数据处理和创建新变量最常用的函数之一。把数据框的每一行或者每一列传送到一些处理函数,可以返回一些结果。函数可以是默认函数或者自定义函数。
举例说明:计算数据框每一列(变量)或者每一行(样本)的缺失值个数
一 参考代码
# -*- coding: utf-8 -*-
"""
Created on Sun Mar 8 07:30:05 2020
数据科学小技巧1:pandas库apply函数应用(向量化操作)
@author: Luqing Wang
"""
# 导入库
import pandas as pd
# 自定义函数
def missing_count(x):
"""
函数功能:
--------
统计变量的缺失值个数
参数集:
------
:x:
返回值:
------
:missing_count: 缺失值个数
"""
missing_count = sum(x.isnull())
return missing_count
# 导入数据
loan = pd.read_csv('./data/loan_train.csv', index_col='Loan_ID')
# 数据检视
print(loan.head())
# 统计数据框中每一列(变量)缺失值个数
print('每一列缺失值的个数:')
print(loan.apply(missing_count, axis=0).head())
# 统计数据框每一行(样本)缺失值个数
print('每一行缺失值的个数:')
print(loan.apply(missing_count, axis=1).head())
二 代码结果
2.1 列缺失值计数结果
2.2 行缺失值计数结果
参考资料
https://github.com/kunalj101/Data-Science-Hacks
想要数据集和代码的朋友,请按着如下操作:
第一步,添加我的个人微信:luqin360,备注:实名-专业或者工作;
第二步:把文章分享到朋友圈,截图给我即可。
关于pandas库apply函数的使用,你有什么问题或者想法,请留言。或者添加我的微信luqin360,备注实名+专业or工作,深入交流。
我的视频号:王路情微信视频号,分享我对数据的认知,包括我创立的PDFMV框架,大数据A-Z轻知识,R语言轻知识,请关注。
PDFMV框架系列文章
1一个数据人的2019
2PDFMV框架
3PDFMV框架的P
4PDFMV框架的D
你点的每个在看,我都认真当成了喜