桃子&starfish-CSDN博客

原创 pandas string方法 str.contain/lower/replace

lower()df['name'].str.lower() #str是一个accessor，取到name列的每个元素并将他们变为小写形式可以用apply()函数代替，你可以尝试写一写。结合使用df['name'].str.split(',').str.get(0) #取到name列的每个元素并使用，分割，取到第一个元素contain()filt=df['name‘].str.contains('Countess') #对name列的每个元素判断其是否包含Countess字符.

2021-10-10 19:33:22 896

原创 pandas 排序 sort_value/nsmallest

按照列的值进行排序df.sort_values(by=['last','first'] , ascending=False, inplace=Flase)按行的默认数字标签index值排序df.sort_index()获取最大/最小的几个值df.nsmallest(10, 'col_lable')` #显示被选中的行的所有数据df['col_lable'].nlargest(15)` #显示被选中的行的col_lable列的数据...

2021-10-10 19:32:42 233

原创 pandas 数据统计groupby/value_counts

显示概况单个df[['age','grade']].median() #计算age grade每一列的中位数当然前提是他们要为数值型数据总体df[['age','grade']].describe() #计算min,max,std,median...当然只会显示类型是数字列的信息自定义（如果你嫌弃descrbe()给出的值太多）df[['age','grade']].agg({ 'age':['min','max'] 'grad

2021-10-10 19:32:09 1537

原创 pandas 增加/删除行/列 append/drop

增加行/列增加列df['full name']=df['first name']+df['last name']增加一行的部分内容df.append({'colum_lable':'data'} , ignore_index=True)在增加行时数据不完整会自动将缺失的值设置为Nan将一列中的内容分割为多列df['full name'].split('/', expand=True)删除行/列删除列df.drop(columns=['first','last'],i

2021-10-10 19:31:35 512

原创 pandas 更改数据apply/applymap/map/replace

改变表格内容选择一个并赋值df.loc[1,'name']='starfish' #选择第二行 name标签下的值更改为starfish选择多个使用列表来赋值df.loc[1,['name','age']]=['starfish', 18 ]数据类型转换df['age'].astype(float)nan的默认类型是float，因此计算有缺失值nan列的平均值时，应将该列的数值类型变为float计算。apply/applymap/map/replace方法apply()df.e

2021-10-10 19:31:04 1273

原创 pandas 选择数据与条件筛选iloc/loc/filt

列选择选择一列df['lable_title']选择多列df[['lable1','lable2']][ 重要事项 ]:注意选择多个列时，多个label要用[]框起来。DataFrame类似于一个二维数组，而二维数组的每一列可以看成一个一维数组，该一维数组在pandas中被称作Series。即DataFrame为一个二维数组，由一列一列的一维数组Series组成。使用df[‘label’]是从一个dataframe中选择返回的是一个Series，如果选择多行多列那么返回的就是一个dat

2021-10-10 19:30:30 1853

原创 pandas 表格创建与查看read_excel/head

创建dataframe从python字典创建df = pd.DataFrame(python_dic)# python字典的键将会变成列标签，值则变为每一行的内容。pandas中DataFrame类似于一个二维数组，而每一列可以看成一个一维数组，该一维数组在pandas中被称作Series。即DataFrame为一个二维数组，由一列一列的一维数组Series组成。从csv文件读取df= pd.read_csv('path_to_csv_file')# 读取csv文件读取其他类型的文件（csv

2021-10-10 19:29:46 733

原创 pandas 更改行列标签set_index/rename

将某一列的值设为行标签设置 df.set_index('email') #将email列设为行标签[重要事项]：这样做不会更改原始的数据，只是给我们查看，df出的仍然是原数据的形式。若要更改原数据,设置参数df.set_index('email',inplace=Ture)。[TIPS] :在读入表格时便进行上述设置 df=pd.read_csv('filepath',index_col='col_lable')复原数据df.reset_index(inplace=true) #复原使用原

2021-10-10 19:26:52 1504 1

原创 np.Nan值处理 isnan/dropna

pandas 表格创建与查看read_excel/head创建dataframe从python字典创建df = pd.DataFrame(python_dic)# python字典的键将会变成列标签，值则变为每一行的内容。pandas中DataFrame类似于一个二维数组，而每一列可以看成一个一维数组，该一维数组在pandas中被称作Series。即DataFrame为一个二维数组，由一列一列的一维数组Series组成。从csv文件读取df= pd.read_csv('path_to_csv

2021-10-10 19:20:08 572

原创 python3中xpath的使用快速入门

python3中xpath的使用快速入门python中使用xpath的场景我们一般是在爬虫中会用到xpath对网页源代码进行信息的筛选与提取，具体而言，主要筛选的信息有以下几种： 1，某个标签中文本的获取 eg:<title>my love</title> 中my love的获取 2，某个标签中属性的获取 eg:<title class=“beautiful”>my love</title> 中class属性的获

2021-02-18 14:58:35 1341 2

shineLikeTheSun的博客