自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 pandas string方法 str.contain/lower/replace

lower()df['name'].str.lower() #str是一个accessor,取到name列的每个元素并将他们变为小写形式 可以用apply()函数代替,你可以尝试写一写。结合使用df['name'].str.split(',').str.get(0) #取到name列的每个元素并使用,分割,取到第一个元素contain()filt=df['name‘].str.contains('Countess') #对name列的每个元素判断其是否包含Countess字符.

2021-10-10 19:33:22 895

原创 pandas 排序 sort_value/nsmallest

按照列的值进行排序df.sort_values(by=['last','first'] , ascending=False, inplace=Flase)按行的默认数字标签index值排序df.sort_index()获取最大/最小的几个值df.nsmallest(10, 'col_lable')` #显示被选中的行的所有数据df['col_lable'].nlargest(15)` #显示被选中的行的col_lable列的数据...

2021-10-10 19:32:42 231

原创 pandas 数据统计groupby/value_counts

显示概况单个df[['age','grade']].median() #计算age grade每一列的中位数 当然前提是他们要为数值型数据总体df[['age','grade']].describe() #计算min,max,std,median...当然只会显示类型是数字列的信息自定义(如果你嫌弃descrbe()给出的值太多)df[['age','grade']].agg({ 'age':['min','max'] 'grad

2021-10-10 19:32:09 1534

原创 pandas 增加/删除行/列 append/drop

增加行/列增加列df['full name']=df['first name']+df['last name']增加一行的部分内容df.append({'colum_lable':'data'} , ignore_index=True)在增加行时数据不完整会自动将缺失的值设置为Nan将一列中的内容分割为多列df['full name'].split('/', expand=True)删除行/列删除列df.drop(columns=['first','last'],i

2021-10-10 19:31:35 512

原创 pandas 更改数据apply/applymap/map/replace

改变表格内容选择一个并赋值df.loc[1,'name']='starfish' #选择第二行 name标签下的值更改为starfish选择多个使用列表来赋值df.loc[1,['name','age']]=['starfish', 18 ]数据类型转换df['age'].astype(float)nan的默认类型是float,因此计算有缺失值nan列的平均值时,应将该列的数值类型变为float计算。apply/applymap/map/replace方法apply()df.e

2021-10-10 19:31:04 1271

原创 pandas 选择数据与条件筛选iloc/loc/filt

列选择选择一列df['lable_title']选择多列df[['lable1','lable2']][ 重要事项 ]:注意选择多个列时,多个label要用[]框起来。DataFrame类似于一个二维数组,而二维数组的每一列可以看成一个一维数组,该一维数组在pandas中被称作Series。即DataFrame为一个二维数组,由一列一列的一维数组Series组成。使用df[‘label’]是从一个dataframe中选择返回的是一个Series,如果选择多行多列那么返回的就是一个dat

2021-10-10 19:30:30 1848

原创 pandas 表格创建与查看read_excel/head

创建dataframe从python字典创建df = pd.DataFrame(python_dic)# python字典的键将会变成列标签,值则变为每一行的内容。pandas中DataFrame类似于一个二维数组,而每一列可以看成一个一维数组,该一维数组在pandas中被称作Series。即DataFrame为一个二维数组,由一列一列的一维数组Series组成。从csv文件读取df= pd.read_csv('path_to_csv_file')# 读取csv文件读取其他类型的文件(csv

2021-10-10 19:29:46 729

原创 pandas 更改行列标签set_index/rename

将某一列的值设为行标签设置 df.set_index('email') #将email列设为行标签[重要事项]:这样做不会更改原始的数据,只是给我们查看,df出的仍然是原数据的形式。若要更改原数据,设置参数df.set_index('email',inplace=Ture)。[TIPS] :在读入表格时便进行上述设置 df=pd.read_csv('filepath',index_col='col_lable')复原数据df.reset_index(inplace=true) #复原使用原

2021-10-10 19:26:52 1503 1

原创 np.Nan值处理 isnan/dropna

pandas 表格创建与查看read_excel/head创建dataframe从python字典创建df = pd.DataFrame(python_dic)# python字典的键将会变成列标签,值则变为每一行的内容。pandas中DataFrame类似于一个二维数组,而每一列可以看成一个一维数组,该一维数组在pandas中被称作Series。即DataFrame为一个二维数组,由一列一列的一维数组Series组成。从csv文件读取df= pd.read_csv('path_to_csv

2021-10-10 19:20:08 572

原创 python3中xpath的使用快速入门

python3中xpath的使用快速入门python中使用xpath的场景  我们一般是在爬虫中会用到xpath对网页源代码进行信息的筛选与提取,具体而言,主要筛选的信息有以下几种:  1,某个标签中文本的获取    eg:<title>my love</title> 中my love的获取  2,某个标签中属性的获取    eg:<title class=“beautiful”>my love</title> 中class属性的获

2021-02-18 14:58:35 1340 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除