特征工程
小小的天和蜗牛
一门心思搞技术!
展开
-
Python之---数据离散化【等宽】【等频】【聚类】
1.数据离散化的迫切需求一些数据挖掘算法中,特别是某些分类算法(eg:LR、决策树算法等),要求数据是分类属性形式。因此常常需要将连续属性变换成分类属性,即离散化。离散化就是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或者整数值代表落在每个区间中的数据值。所以离散化涉及两个过程:确定分类数&将连续属性值映射到n个分类值。注意:常用的离散...转载 2019-03-19 11:18:11 · 10441 阅读 · 1 评论 -
Python之---【Pandas】聚合技术(GroupBy技术)
1.分组运算所谓的“分组运算”是多个步骤的一个组合,我们可以拆分为“split-apply-combine”(拆分-应用-合并),我觉得这个词很好的描述了整个过程。分组运算的第一个阶段,pandas对象(无论是Series,DataFrame还是其他的)中的数据会根据你所提供的一个或多个“key”,被拆分(split)为多个组。拆分操作是在对象的特定轴上执行的,例如,DataFrame可以在其行...原创 2019-03-23 16:03:59 · 1546 阅读 · 0 评论 -
推荐系统之---正负样本构造trick
1.说明在推荐系统的排序阶段,有一个很重要的步骤就是,构造用户-物品的特征向量,这个过程可以说直接决定了模型的优劣情况。正所谓 “数据是模型的上限” 。在后续的时间会持续更新一些小trick。2.Some Tricks2.1 Feed流场景下构造样本在Feed流场景下,使用曝光(展示)日志时,应该选择APP的SDK埋点的日志,而不是服务器Web接口返回的日志,因为Web接口...原创 2019-05-25 22:57:06 · 14435 阅读 · 4 评论