特征处理
文章平均质量分 85
kanbuqinghuanyizhang
这个作者很懒,什么都没留下…
展开
-
机器学习_特征处理
内容来源于其他博客,这里做了个汇总,侵删。标准化归一化数据数据标准化是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。归一化的作用: 1. 提升模型的收敛速度 如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这原创 2018-01-07 10:29:50 · 1229 阅读 · 0 评论 -
机器学习_特征挑选的方法
todo:暂时是看到一些常用场景对应的一些方法,比较乱,之后统一整理下这篇知乎有关于特征选择的大纲。特征挑选方法特征选择的优点:提高效率,特征越少,模型越简单正则化,防止特征过多出现过拟合去除无关特征,保留相关性大的特征,解释性强特征选择的缺点:筛选特征的计算量较大不同特征组合,也容易发生过拟合容易选到无关特征,解释性差线性模型1、可以通过计...原创 2018-03-13 15:41:31 · 356 阅读 · 0 评论 -
连续特征离散化常用方法
无监督方法1、等宽分箱法比如我们的特征数据在0-100,之间,等宽分成10份,分别为[0-10],[11-20],...,[90-100]假设有个数据值为11,那么其对应的one-hot向量为[0,1,0,0,0,0,0,0,0,0]等宽分箱法的缺陷:假设有个别特征值过大,那么和上面分同样多份宽度会拉长,实例就主要集中在前面的箱体中。那么我们设立阈值之外的一等份。此时我们可...原创 2018-04-25 23:05:27 · 4525 阅读 · 0 评论 -
faiss简介及示例
简介faiss是为稠密向量提供高效相似度搜索和聚类的框架。由Facebook AI Research研发。 具有以下特性。1、提供多种检索方法2、速度快3、可存在内存和磁盘中4、C++实现,提供Python封装调用。5、大部分算法支持GPU实现下面给出一些快速链接方便查找更多内容。github 官方文档 c++类信息 Troubleshooting 官方安装文档...原创 2018-06-22 15:39:18 · 52060 阅读 · 9 评论 -
特征向量降维常见的几种方法
高纬度特征带来的问题这里就简单描述下。 通常我们会使用特征训练模型或特征矩阵求相似度。高维的特征带来的计算成本非常大,甚至完不成。同时一般高维的特征都比较稀疏,直接使用高维的特征训练需要样本量很大,难以拟合,模型效果不好。训练模型时特征的筛选通常我们训练模型时,会人为挑选特征,控制每类特征维度范围,比如年龄我们使用one-hot的方式表示,分成0-10,10-20...,>10...原创 2018-08-04 15:13:08 · 13772 阅读 · 0 评论