算法
joleoy
这个作者很懒,什么都没留下…
展开
-
利用skift实现fasttext模型
skift: 用于Python fastText的scikit-learn 包装器什么是 skift?skift包括几个scikit-learn兼容包装器,里面封装了fasttext模型,fasttext原理类似于word2vec,主要用于文本快速分类。其优势在于分类速度快,使用n-gram特征容易获得文本句子局部信息、构造新词。缺点是随着语料的增长,内存需求也会增长。那么如果解决内存问题呢?...原创 2018-12-13 13:48:07 · 978 阅读 · 0 评论 -
离散特征处理方法
显式特征组合常用方法:对特征进行离散化然后进行叉乘,采用笛卡儿积、内积等方式针对不同特征类型,有不同的处理方式数值特征无监督离散化:根据简单统计量进行等频、等宽、分位点等划分区间有监督离散化:IR方法、Entropy-basedDiscretization有序特征(ordinal feature) CCF画像比赛有位同学采用二值化编码表示值之间的顺序关系,比如卫生条件这一...原创 2019-06-13 11:24:41 · 2197 阅读 · 0 评论 -
理解特征工程Part 1——类别型变量
【导读】不管是机器学习、深度学习或统计方法,任何的智能系统都需要数据支持。而原始数据往往很难被算法直接利用,因此特征工程显得尤为重要。这是一篇完全手把手教你在实际应用中如何理解特征工程的教程,在上一篇,作者研究了关于连续数值数据的特征工程的流行策略,通过实例和代码详细展示了连续数值数据特征工程的过程。【干货】理解特征工程Part 1——连续数值数据(附代码)在本文中,我们将看到另一种类型的结构...转载 2019-05-13 00:19:21 · 1277 阅读 · 0 评论 -
预模型模型相关文章
预训练概览[1] NLP领域的预训练之风[2] 自然语言处理中的语言模型预训练方法transformer模型[1] [神经机器翻译 之 谷歌 transformer 模型(https://www.jianshu.com/p/ef41302edeef?utm_source=oschina-app)[2] 注意力机制(Attention)最新综述论文及相关源码[3] 基于注意力机制,机器之...原创 2018-12-23 23:15:49 · 147 阅读 · 0 评论 -
XGBoost若干个问题
xgboost原理关于xgboost原因有很多文章做过详尽的解释,这里列出基本思路和推荐一些文章。xgboost推导过程一文读懂机器学习大杀器XGBoost原理xgboost重要的点xgboost(eXtreme Gradient Bosting)极端梯度提升是基于GDBT改进而来的,其优化的点有1.对于GBDT的目标函数利用泰勒展开得到一阶和二阶梯度信息来近似目标函数去除常数...原创 2018-12-13 19:00:01 · 778 阅读 · 0 评论 -
利用NN处理不平衡数据集
过采样划分数据集import numpy as npimport csvimport randomdef normalise_data(data): data_norm = (data - np.vstack(np.mean(data, axis=1)) / np.vstack(np.std(data, axis=1))) return data_normdef ...转载 2019-08-19 23:51:46 · 247 阅读 · 0 评论