2018年03月_Johnson0722

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创二叉查找树(BST)的基本概念及常用操作

二叉查找树二叉查找树（Binary Search Tree），也称二叉搜索树、有序二叉树（ordered binary tree），排序二叉树（orted binary tree），是指一棵空树或者具有下列性质的二叉树：若任意节点的左子树不空，则左子树上所有节点的值均小于它的根节点的值；若任意节点的右子树不空，则右子树上所有节点的值均大于它的根节点的值；任意节点的左、右子树也分别为二...

2018-03-20 10:43:36 16092 1

原创文本分类算法综述

业务背景最近一段时间在今日头条国际化部门实习，做的文本质量工作。主要是文本分类，就是用一些机器学习或者深度学习的方法过滤掉低俗的新闻。因为做的是小语种，比如说法语，德语，意语，泰米尔语等，标注力量特别有限，有些语种甚至找不到标注人员。在这种情况下，要通过模型准确的识别出低俗新闻，难度可想而知。解决办法：前期在没有标注的情况下，对每个小语种，通过googletrans得到的一批低...

2018-03-18 17:37:02 7484 5

原创集成学习(Ensemble Learning)综述

集成学习简单理解就是指采用多个分类器对数据集进行预测，从而提高整体分类器的泛化能力。集成学习有两个流派，一个是boosting派系，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。1. BaggingBagging算法（Bootstrap aggregating，引导聚集算法），又称装袋算法，是机器学习领域的一...

2018-03-18 17:21:51 7817

原创基于gensim的doc2vec实践

1.“句向量”简介word2vec提供了高质量的词向量，并在一些任务中表现良好。关于word2vec的原理可以参考这几篇论文：https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用第三方库gensim训练word2vec可以参考这篇博客：http://blog.csdn.n...

2018-03-02 15:58:58 11726 5

原创 fastText原理及实践

原理论文地址：https://arxiv.org/pdf/1607.01759.pdf简介fastText是facebook在2016年提出的一个文本分类算法，是一个有监督模型，其简单高效，速度快，在工业界被广泛的使用。在学术界，可以作为baseline的一个文本分类模型。模型结构模型结构如下图所示，每个单词通过嵌入层可以得到词向量，然后将所有词向量平均可以得到文本的向...

2018-03-02 11:43:46 3360 1

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读...

2018-03-01 14:39:03 1120

AI技术人才成长路线图

2018-02-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

JohnSon

原创二叉查找树(BST)的基本概念及常用操作

原创文本分类算法综述

原创集成学习(Ensemble Learning)综述

原创基于gensim的doc2vec实践

原创 fastText原理及实践

转载 word2vec 中的数学原理详解

AI技术人才成长路线图

空空如也

原创 二叉查找树(BST)的基本概念及常用操作

原创 文本分类算法综述

原创 集成学习(Ensemble Learning)综述

原创 基于gensim的doc2vec实践

原创 fastText原理及实践

转载 word2vec 中的数学原理详解

AI技术人才成长路线图

空空如也

原创二叉查找树(BST)的基本概念及常用操作

原创文本分类算法综述

原创集成学习(Ensemble Learning)综述

原创基于gensim的doc2vec实践