- 博客(6)
- 资源 (7)
- 收藏
- 关注
原创 预模型模型相关文章
预训练概览[1] NLP领域的预训练之风[2] 自然语言处理中的语言模型预训练方法transformer模型[1] [神经机器翻译 之 谷歌 transformer 模型(https://www.jianshu.com/p/ef41302edeef?utm_source=oschina-app)[2] 注意力机制(Attention)最新综述论文及相关源码[3] 基于注意力机制,机器之...
2018-12-23 23:15:49 147
原创 Spark共享变量
Spark一个非常重要的特性就是共享变量。 默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。广播变量...
2018-12-16 15:42:32 162
原创 利用feather快速处理大数据
Feather是一个快速、轻量级的存储框架,可以在应用在pandas的Dataframe数据结构中。读写数据import featherimport pandas as pddef read_csv_feature(file_in): # 读 f = open(file_in, encoding='utf-8') reader = pd.read_csv(f, sep=',',it...
2018-12-16 15:29:54 3914 1
转载 【转】LightGBM原理之论文详解
LightGBM原理之论文详解提升树是利用加模型与前向分布算法实现学习的优化过程,它有一些高效实现,如XGBoost, pGBRT,GBDT等。其中GBDT采用负梯度作为划分的指标(信息增益),XGBoost则利用到二阶导数。他们共同的不足是,计算信息增益需要扫描所有样本,从而找到最优划分点。在面对大量数据或...
2018-12-14 09:18:46 328
原创 XGBoost若干个问题
xgboost原理关于xgboost原因有很多文章做过详尽的解释,这里列出基本思路和推荐一些文章。xgboost推导过程一文读懂机器学习大杀器XGBoost原理xgboost重要的点xgboost(eXtreme Gradient Bosting)极端梯度提升是基于GDBT改进而来的,其优化的点有1.对于GBDT的目标函数利用泰勒展开得到一阶和二阶梯度信息来近似目标函数去除常数...
2018-12-13 19:00:01 778
原创 利用skift实现fasttext模型
skift: 用于Python fastText的scikit-learn 包装器什么是 skift?skift包括几个scikit-learn兼容包装器,里面封装了fasttext模型,fasttext原理类似于word2vec,主要用于文本快速分类。其优势在于分类速度快,使用n-gram特征容易获得文本句子局部信息、构造新词。缺点是随着语料的增长,内存需求也会增长。那么如果解决内存问题呢?...
2018-12-13 13:48:07 978
人工智能选股之全连接神经网络
2019-03-26
风险均衡方法及其在目标风险策略中的应用
2019-03-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人