![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
特征处理
jasonwang_
all or nothing
展开
-
Pandas DataFrame——按行构建
当我们从复杂表格提取出逐个样本的特征时,继而构成一条样本并组成训练或测试集时,比较容易想到的一点就是一行一行地构建DataFrame。而pandas.Dataframe()容许的输入有numpy ndarray (structured or homogeneous), dict, or DataFrame这些;其中,我采用了从字典构建,最主要原因就是可以省去给每列填写列明的步骤,Dataf原创 2017-12-12 11:25:15 · 3478 阅读 · 0 评论 -
Python Dataframe ——指定多列去重、求差集
1)去重指定多列去重,这是在dataframe没有独一无二的字段作为PK(主键)时,需要指定多个字段一起作为该行的PK,在这种情况下对整体数据进行去重。Attention:主要用到了drop_duplicates方法,并设置参数subset为多个字段名构成的数组。具体代码如下: >>>import pandas as pd >>>data={'state':[1,1,原创 2017-12-13 22:14:04 · 40620 阅读 · 5 评论