pandas
小辉懂编程
始于热爱,忠于记录,终于研究,本人暂时可培训:全国职业院校技能大赛(大数据开发)赛项比赛
展开
-
pandas extract()
在上面的示例中,我们使用`extract()`函数提取了每个字符串中的字母和数字部分。提取的结果是一个包含两列的DataFrame,其中第一列(0)是字母部分,第二列(1)是数字部分。它是通过正则表达式来实现的。`extract()`函数通常是通过`pandas`库的`Series`对象调用的,用于对Series中的字符串进行模式匹配并提取出匹配的部分。需要注意的是,`extract()`函数返回的是一个新的DataFrame或Series对象,而不是修改原始的数据。原创 2023-07-27 22:09:09 · 684 阅读 · 0 评论 -
pandas value_counts(1)
value_counts()`函数对DataFrame中的'年龄'列进行频数统计,并计算每个唯一值的相对频率。具体解释如下:- `df['年龄']`:表示从DataFrame中选择名为'年龄'的列。- `.value_counts(1)`:对所选的'年龄'列应用`value_counts()`函数,并传入参数`1`。参数`1`表示计算相对频率,即将频数除以总数,得到每个唯一值的相对频率。结果将返回一个新的Series对象,其中包含'年龄'列中每个唯一值及其对应的相对频率。原创 2023-07-27 18:09:05 · 136 阅读 · 0 评论 -
pandas inna()函数
在pandas中,`isna()`函数用于检测DataFrame或Series中的缺失值(NaN值)。它返回一个布尔值的DataFrame或Series,其中缺失值位置为True,非缺失值位置为False。原创 2023-07-25 16:16:07 · 915 阅读 · 0 评论 -
pandas cut()函数
在pandas中,`cut()`函数用于将连续的数值数据按照指定的间隔划分成离散的区间。它可以将一组数值划分成不同的区间,并为每个值分配一个对应的区间标签。参数说明:- `x`:要划分的数值数据,可以是DataFrame的列、Series或数组。- `bins`:指定划分的区间边界。可以是一个整数,表示划分的区间数量;也可以是一个数 组,表示自定义的区间边界。- `labels`:可选参数,用于指定每个区间的标签。原创 2023-07-24 21:28:07 · 693 阅读 · 0 评论 -
关于Pandas及Numpy常用api
data=df.groupby('xx')['yy'].reset_index().set_index('自定义列名')例:df.groupby('xx')['yy'].sum() 对xx字段进行分组,然后按照yy进行求和。多列排序: data.sort_values(by=['列名1','列名2'])df.loc[df['z']>1,'y']=10 对y列中大于1的行赋值为10。df.loc[1:5, ["x",'y']] :#指定行的两列数据。原创 2023-07-03 20:27:12 · 189 阅读 · 0 评论