Pandas技巧
么心learning
nothing
展开
-
特征工程:一行代码搞定one-hot编码
本文介绍两种one-hot编码方法。第一种方法针对字符类型的特征变量;第二种方法针对数值型特征。1.Pandas自带的get_dummies方法特征工程中,最为繁琐却很重要的一步就是处理字符型特征,对于字符型特征的处理,常用方式就是one-hot编码。先来看原始数据:做one-hot编码df = pd.get_dummies(df) #get_dummies对“整数特...原创 2019-12-25 15:58:57 · 1129 阅读 · 0 评论 -
Pandas技巧:将一列分隔成多个列
项目中遇到一个问题,搜集的数据只有一列,每行的数据都是通过特殊字符分隔,现在需要将其分隔成多个列。原始数据如下: 00 155,NA,0,10,-99999,18,18,18,04,NA,0,-99999...1 728,NA,24.1,74.81,-9999,18,18,18,-99999,...这是前两行的数据。原本使用特殊字符分隔的,这个好处理,只需通过string的repl...原创 2018-10-27 10:10:46 · 16304 阅读 · 4 评论 -
Pandas技巧:删除列为指定值的数据
初始化一个DataFramedf = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])输出: A B C D0 0 1 2 31 4 5 6 72 8 9 10 11如果要删除A列中值为0的那一行:df = df[df['A'] != 0]输出: A B C D1 4 5 6 7...原创 2018-10-16 11:11:08 · 10936 阅读 · 0 评论 -
Pandas:将excel中字符型数据转为float数值型
使用Pandas读取excel中的数据时,常常会遇到类似1,000,000这样的数据。Pandas读取后会认为这是个字符型,而这样的数据还不能直接用类型转换实现。正确的用法如下:data['amount'] = data['amount'].apply( lambda x: float(x.split()[0].replace(',', '')) if(',' in str(...原创 2019-08-15 10:30:18 · 7427 阅读 · 0 评论