pandas
guofei_fly
这个作者很懒,什么都没留下…
展开
-
不均衡样本权重的计算
数据挖掘中有时候会遇到不均衡样本,一种常用的方法是通过根据样本个数进行统计计算,或者根据业务场景人工计算权重。诸如sklearn的DT、RF等模型都设置了class_weight参数进行快速balanced;而XGB的fit中也有sampe_weight参数,只是需要手动提供每个样本对应权重的array,这里提供了一段简单的计算样本权重的代码。"""根据labels序列进行统计,生成对应的sa...原创 2019-07-30 18:01:33 · 1301 阅读 · 0 评论 -
Numpy中的数组拼接、合并操作(concatenate, append, stack, hstack, vstack, r_, c_等)
Numpy中提供了concatenate,append, stack类(包括hsatck、vstack、dstack、row_stack、column_stack),r_和c_等类和函数用于数组拼接的操作。各种函数的特点和区别如下标:concatenate提供了axis参数,用于指定拼接方向append默认先ravel再拼接成一维数组,也可指定axisstack提...原创 2018-12-31 23:18:18 · 23060 阅读 · 3 评论 -
利用pandas中groupby解决分组对象的组内排序问题
问题:根据数据某列进行分组,选择其中另一列大小top-K的的所在行数据解析:求解思路很清晰,即先用groupby对数据进行分组,然后再根据分组后的某一列进行排序,选择排序结果后的top-K结果案例:取一下dataframe中B列各对象中C值最高所在的行df = pd.DataFrame({"A": [2, 3, 5, 4], "B": ['a', 'b', 'b', 'a'], "C": [...原创 2019-06-27 09:53:31 · 48942 阅读 · 7 评论 -
Pandas中的拼接操作(concat,append,join,merge)
Pandas提供了concat、append、join和merge四种方法用于dataframe的拼接,其大致特点和区别见下表:.concat()pandas的顶级方法,提供了axis设置可用于df间行方向(增加行,下同)或列方向(增加列,下同)进行内联或外联拼接操作.append()dataframe数据类型的方法,提供了行方向的拼接操作.join()datafr...原创 2018-12-31 12:13:39 · 15461 阅读 · 1 评论 -
pandas中datetime64列的merge操作
问题的提出:两个dataframe中的时间数据为datetime64格式,在进行merge操作可能提醒如下错误:求解思路:datetime64格式在dataframe中是什么样的角色?如何使得两个datetime64数据可以对比?datetime64格式原生于Numpy库,因此在pandas中并不支持直接的数值比较,这是造成上述报错的原因。而在pandas中常用的时间数据类型分别...原创 2019-12-06 15:23:31 · 1732 阅读 · 0 评论 -
pandas和excel转换身份证号码时的数据有效性问题
在利用Pandas处理和生成Excel中的身份证号码、银行卡号等特殊数据类型,易出现如下异常:1)科学记数法的表示2)末尾4位数会莫名变为03)pandas和excel中数据的不一致(末尾的值会出现偏差)其原因在于两方面:1)对于数值类型数据,excel允许的最大长度为15位。因此在excel保存身份证号码、银行卡号等数据时,务必以文本类型保存;2)pandas在导入这种可以转换为fl...原创 2019-11-14 20:31:58 · 2346 阅读 · 4 评论