- 博客(10)
- 收藏
- 关注
原创 pandas string方法 str.contain/lower/replace
lower()df['name'].str.lower() #str是一个accessor,取到name列的每个元素并将他们变为小写形式 可以用apply()函数代替,你可以尝试写一写。结合使用df['name'].str.split(',').str.get(0) #取到name列的每个元素并使用,分割,取到第一个元素contain()filt=df['name‘].str.contains('Countess') #对name列的每个元素判断其是否包含Countess字符.
2021-10-10 19:33:22 895
原创 pandas 排序 sort_value/nsmallest
按照列的值进行排序df.sort_values(by=['last','first'] , ascending=False, inplace=Flase)按行的默认数字标签index值排序df.sort_index()获取最大/最小的几个值df.nsmallest(10, 'col_lable')` #显示被选中的行的所有数据df['col_lable'].nlargest(15)` #显示被选中的行的col_lable列的数据...
2021-10-10 19:32:42 231
原创 pandas 数据统计groupby/value_counts
显示概况单个df[['age','grade']].median() #计算age grade每一列的中位数 当然前提是他们要为数值型数据总体df[['age','grade']].describe() #计算min,max,std,median...当然只会显示类型是数字列的信息自定义(如果你嫌弃descrbe()给出的值太多)df[['age','grade']].agg({ 'age':['min','max'] 'grad
2021-10-10 19:32:09 1534
原创 pandas 增加/删除行/列 append/drop
增加行/列增加列df['full name']=df['first name']+df['last name']增加一行的部分内容df.append({'colum_lable':'data'} , ignore_index=True)在增加行时数据不完整会自动将缺失的值设置为Nan将一列中的内容分割为多列df['full name'].split('/', expand=True)删除行/列删除列df.drop(columns=['first','last'],i
2021-10-10 19:31:35 512
原创 pandas 更改数据apply/applymap/map/replace
改变表格内容选择一个并赋值df.loc[1,'name']='starfish' #选择第二行 name标签下的值更改为starfish选择多个使用列表来赋值df.loc[1,['name','age']]=['starfish', 18 ]数据类型转换df['age'].astype(float)nan的默认类型是float,因此计算有缺失值nan列的平均值时,应将该列的数值类型变为float计算。apply/applymap/map/replace方法apply()df.e
2021-10-10 19:31:04 1271
原创 pandas 选择数据与条件筛选iloc/loc/filt
列选择选择一列df['lable_title']选择多列df[['lable1','lable2']][ 重要事项 ]:注意选择多个列时,多个label要用[]框起来。DataFrame类似于一个二维数组,而二维数组的每一列可以看成一个一维数组,该一维数组在pandas中被称作Series。即DataFrame为一个二维数组,由一列一列的一维数组Series组成。使用df[‘label’]是从一个dataframe中选择返回的是一个Series,如果选择多行多列那么返回的就是一个dat
2021-10-10 19:30:30 1848
原创 pandas 表格创建与查看read_excel/head
创建dataframe从python字典创建df = pd.DataFrame(python_dic)# python字典的键将会变成列标签,值则变为每一行的内容。pandas中DataFrame类似于一个二维数组,而每一列可以看成一个一维数组,该一维数组在pandas中被称作Series。即DataFrame为一个二维数组,由一列一列的一维数组Series组成。从csv文件读取df= pd.read_csv('path_to_csv_file')# 读取csv文件读取其他类型的文件(csv
2021-10-10 19:29:46 729
原创 pandas 更改行列标签set_index/rename
将某一列的值设为行标签设置 df.set_index('email') #将email列设为行标签[重要事项]:这样做不会更改原始的数据,只是给我们查看,df出的仍然是原数据的形式。若要更改原数据,设置参数df.set_index('email',inplace=Ture)。[TIPS] :在读入表格时便进行上述设置 df=pd.read_csv('filepath',index_col='col_lable')复原数据df.reset_index(inplace=true) #复原使用原
2021-10-10 19:26:52 1503 1
原创 np.Nan值处理 isnan/dropna
pandas 表格创建与查看read_excel/head创建dataframe从python字典创建df = pd.DataFrame(python_dic)# python字典的键将会变成列标签,值则变为每一行的内容。pandas中DataFrame类似于一个二维数组,而每一列可以看成一个一维数组,该一维数组在pandas中被称作Series。即DataFrame为一个二维数组,由一列一列的一维数组Series组成。从csv文件读取df= pd.read_csv('path_to_csv
2021-10-10 19:20:08 572
原创 python3中xpath的使用快速入门
python3中xpath的使用快速入门python中使用xpath的场景 我们一般是在爬虫中会用到xpath对网页源代码进行信息的筛选与提取,具体而言,主要筛选的信息有以下几种: 1,某个标签中文本的获取 eg:<title>my love</title> 中my love的获取 2,某个标签中属性的获取 eg:<title class=“beautiful”>my love</title> 中class属性的获
2021-02-18 14:58:35 1340 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人