自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

JohnSon

Learning like Deep Learning

  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 二叉查找树(BST)的基本概念及常用操作

二叉查找树二叉查找树(Binary Search Tree),也称二叉搜索树、有序二叉树(ordered binary tree),排序二叉树(orted binary tree),是指一棵空树或者具有下列性质的二叉树:若任意节点的左子树不空,则左子树上所有节点的值均小于它的根节点的值;若任意节点的右子树不空,则右子树上所有节点的值均大于它的根节点的值;任意节点的左、右子树也分别为二...

2018-03-20 10:43:36 16088 1

原创 文本分类算法综述

业务背景最近一段时间在今日头条国际化部门实习,做的文本质量工作。主要是文本分类,就是用一些机器学习或者深度学习的方法过滤掉低俗的新闻。因为做的是小语种,比如说法语,德语,意语,泰米尔语等,标注力量特别有限,有些语种甚至找不到标注人员。在这种情况下,要通过模型准确的识别出低俗新闻,难度可想而知。解决办法:前期在没有标注的情况下,对每个小语种, 通过googletrans得到的一批低...

2018-03-18 17:37:02 7484 5

原创 集成学习(Ensemble Learning)综述

集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。 集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。1. BaggingBagging算法(Bootstrap aggregating,引导聚集算法),又称装袋算法,是机器学习领域的一...

2018-03-18 17:21:51 7814

原创 基于gensim的doc2vec实践

1.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文:https://arxiv.org/pdf/1310.4546.pdfhttps://arxiv.org/pdf/1301.3781.pdf关于如何使用第三方库gensim训练word2vec可以参考这篇博客:http://blog.csdn.n...

2018-03-02 15:58:58 11723 5

原创 fastText原理及实践

原理论文地址:https://arxiv.org/pdf/1607.01759.pdf简介fastText是facebook在2016年提出的一个文本分类算法,是一个有监督模型,其简单高效,速度快,在工业界被广泛的使用。在学术界,可以作为baseline的一个文本分类模型。模型结构模型结构如下图所示,每个单词通过嵌入层可以得到词向量,然后将所有词向量平均可以得到文本的向...

2018-03-02 11:43:46 3360 1

转载 word2vec 中的数学原理详解

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读...

2018-03-01 14:39:03 1120

AI技术人才成长路线图

AI技术人才成长路线图

2018-02-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除