
NLP
zhiyong_will
这个作者很懒,什么都没留下…
-
原创 文本分类fastText算法
1. 概述在深度学习遍地开花的今天,浅层的网络结构甚至是传统的机器学习算法被关注得越来越少,但是在实际的工作中,这一类算法依然得到广泛的应用,或者直接作为解决方案,或者作为该问题的baseline,fastText就是这样的一个文本分类工具。fastText是2016年由facebook开源的用于文本分类的工具,fastText背后使用的是一个浅层的神经网络,在保证准确率的前提下,fastText算法的最大特点是快。2. 算法原理2.1. fastText的模型结构fastText是如何保证速度的呢2020-12-05 17:35:3181
0
-
原创 自然语言中的重要概念——熵(Entropy)
一、背景二、熵1、信息熵2、条件熵3、联合熵4、相对熵三、互信息2016-04-09 15:49:007412
0
-
原创 简单易学的机器学习算法——Latent Dirichlet Allocation(理论篇)
引言LDA(Latent Dirichlet Allocation)称为潜在狄利克雷分布,是文本语义分析中比较重要的一个模型,同时,LDA模型中使用到了贝叶斯思维的一些知识,这些知识是统计机器学习的基础,这些知识点包括Gamma函数和分布,Beta函数和分布,Dirichlet函数和分布,贝叶斯定理,Gibbs采样等等。在接下来的文章,我们通过以下几个方面具体介绍LDA的核心思想:基础知2016-01-25 16:03:5519447
3
-
原创 机器学习算法实现解析——word2vec源码解析
在阅读本文之前,建议首先阅读“简单易学的机器学习算法——word2vec的算法原理”,掌握如下的几个概念:什么是统计语言模型神经概率语言模型的网络结构CBOW模型和Skip-gram模型的网络结构Hierarchical Softmax和Negative Sampling的训练方法Hierarchical Softmax与Huffman树的关系有了如上的一些概念,接下来就可以去读word2017-03-16 16:32:4429091
7
-
原创 情感分析——深入snownlp原理和实践
一、snownlp简介snownlp是什么? SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使...2018-06-26 11:23:1646608
18