数据分析工程师成为这几年比较热门大数据应用领域的方向,很多的分析工具已经广泛应用于大数据、人工智能领域。本人经过近半年来的摸索实践,在pandas使用中有了一点心得,总结出来给刚刚初学的朋友借鉴。本文重点介绍EXCEL表格操作的常规方法,包括取数、过滤、清洗数据。最后生成结果表。
--引导模块是最最基础的一步。
import pandas as pd
import numpy as np
以下为数据读取方法:
df1=pd.read_excel(r'd:\表A.xlsx',sheetname=None,skiprows=None,names=None)
三个参数很常用:sheetname=表格sheet名称;skiprows=起始数据行,names=包含要使用的列名列表对象[],适用于没有列标题的情况数据。
如果需求将中文列标题改为英文,可以说适用rename函数
df1.rename(columns={'标题1': 'col1' ,
'标题2': 'col2' ,
'标题3': 'col3' },inplace=True)
过滤:
df1[df1['col1'].notnull()]] #去掉col1列为空的行数
df1[['total_bill', 'tip', 'smoker', 'time']] 截取部分列数据
df1['addcol']=np.nan 增加一个新列用NaN填充 None/NaN/''代表的意义不同