![](https://img-blog.csdnimg.cn/20190912110425403.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Pandas
肯德基套餐
这个作者很懒,什么都没留下…
展开
-
ValueError: not enough values to unpack (expected 2, got1)
numpy array的shape 为 (1000,),需要进行显示的shape转换 ,不然读不到x和y上的维度np.array([np.array(line) for line in data['embeding'].values])原创 2021-12-05 15:05:33 · 1250 阅读 · 0 评论 -
pandas对不同类型的column进行fillna
因为dataframe中数据有不同类型,统一fillna可能会造成统一列数据类型不同的错误,有两种方法方法1:逐一判断for col in df: if df[col].dtype=="object":.....方法2:用select_dtypesdf=df.select_dtypes(include='object').fillna('') ...原创 2020-06-25 21:17:01 · 1400 阅读 · 0 评论 -
DataFrame删除column的不同方法
import pandas as pddata = [['a',1],['b',2]]data = pd.DataFrame(data, columns=['name', 'age'])#通过特征选取data = data[['age']]#通过del 关键字del data['name']#通过drop函数data.drop(['name'],axis=1, inplac...原创 2020-04-25 10:20:02 · 5363 阅读 · 0 评论 -
plt legend位置
ax1.legend(bbox_to_anchor=(0.55, 1.09))ax2.legend(bbox_to_anchor=(0.31, 1.09))plt.legend(loc=‘upper left’)原创 2020-03-03 16:43:03 · 2862 阅读 · 0 评论 -
Dataframe 删除相邻相同的元素
loc + shift data.loc[data.clean_Message != data.clean_Message.shift(-1)]原创 2020-01-15 12:37:09 · 974 阅读 · 0 评论 -
dataframe groupby 后求每个key最大值所在的行号
dataframe groupby 后求每个key最大值所在的行号,用idxmax()函数import pandas as pdarray = []for charc in ['a', 'b', 'c']: for i in range(5): array.append([charc, i])data = pd.DataFrame(array, columns=["...原创 2019-11-06 15:28:31 · 1011 阅读 · 0 评论 -
pandas groupby max
假设数据如下:array = [ ['a', 2], ['a', 1], ['a', 0], ['b', 2], ['b', 4], ['b', 6],]data = pd.DataFrame(array, columns=["name", "age"])数据如下: name score0 a 21 a ...原创 2019-11-02 11:19:25 · 6153 阅读 · 1 评论 -
pandas利用透视表将一列作为特征名,一列作为特征值
将df的某一列的值作为特征名,另外一列的值作为特征的值,将原始数据横向展开比如把下面的df, 转化成两行数据,每行数据表示一个同学的所有学科成绩。即把kind列的所有值作为特征,score列的所有值作为kind列对应特征的值。 name kind socre0 xiaomi math 901 xiaomi yuwen ...原创 2019-08-13 20:58:48 · 1320 阅读 · 0 评论 -
向空的dataframe中插入数据
方法1:先创建数组,然后将数据转化为dfvalues = origin_data.valuesfor line in values: useId = line[0] operation = line[1] label = line[2] for op in operation: array.append([useId, op, label])d...原创 2019-08-13 17:04:29 · 10551 阅读 · 0 评论 -
pandas用in筛选数据
错误写法data = data[data["NodeId"] in (["fe50c54a-5091-4fb2-8487-efeffd10592d","fcc671c2-c92c-4285-934f-dda38a2ed475"])] File "C:\software\python\lib\site-packages\pandas\core\generic.py", line 1478, ...原创 2019-07-28 15:49:57 · 9099 阅读 · 0 评论 -
ImportError: Install xlrd >= 1.0.0 for Excel support
pandas 读取xlsx格式数据时pd.read_excel报错: File "C:\software\python\lib\site-packages\pandas\util\_decorators.py", line 188, in wrapper return func(*args, **kwargs) File "C:\software\python\lib\site-...原创 2019-07-28 15:32:19 · 732 阅读 · 0 评论 -
pandas 数据按行归一化
data = data.div(data.sum(axis=1), axis=0)data.sum(axis=1) 表示按行求和data.div(sum_data,axis=0) 表示按行除原创 2019-06-27 18:32:04 · 5346 阅读 · 3 评论 -
pandas new columns calc by multiple columns
不能直接使用apply或者map,这两个操作只能针对1列, 如果新的列等于两个旧的列经过函数处理后的结果,那么就要用如下写法(不用处理的话可以直接加减操作)map(function, column1, column2)def calc_time_interval(a,b): a = datetime.strptime(str(a),"%Y-%m-%d %H:%M:%S.%f") ...原创 2019-04-28 11:03:34 · 439 阅读 · 0 评论 -
pandas 表的合并 merge/join/contact
最近做比赛的特征工程时,经常用到表的合并,对上述三种操作总是不是熟练的使用,弄不清其中的区别与联系。所以花点时间弄清他们。merge操作merge通过一个或者多个键将两张表合并在一起,api如下merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,...原创 2019-01-09 12:28:01 · 8505 阅读 · 1 评论 -
pandas 显示不全不问题
使用pandas输出data frame 内容时常常会遇到显示不全(部分内容省略)或者在不该换行的地方换行,给我们的观察造成麻烦。可以通过set_option来配置pandas的属性,API官网在这点击跳转这里介绍最常用的四个属性,基本上可以满足我们日常的需要。display.max_rows 显示的最大行数(避免只显示部分行数据)display.max_columns 显示的最大列数(...原创 2019-01-14 21:04:43 · 7572 阅读 · 0 评论 -
pandas factorize将字符串特征转化为数字特征
将原始数据中的字符串特征转化为模型可以识别的数字特征可是使用pandas自带的factorzie方法。原始数据的job特征值如下都是字符串特征,无法用于训练,当然可以单独建立map硬编码处理,但是pandas已经封装好了相应的方法。data = pd.read_csv("data/test_set.csv")data["job"] = pd.factorize(data["job"原创 2019-01-04 08:46:11 · 9173 阅读 · 6 评论 -
pandas 中对特征进行硬编码和onehot编码
首先介绍两种编码方式硬编码和onehot编码,在模型训练所需要数据中,特征要么为连续,要么为离散特征,对于那些值为非数字的离散特征,我们要么对他们进行硬编码,要么进行onehot编码,转化为模型可以用于训练的特征初始化一个DataFrameimport pandas as pddf = pd.DataFrame([ ['green', 'M', 20, 'class1'], ...原创 2018-12-05 16:31:41 · 10604 阅读 · 0 评论