自然语言处理
文章平均质量分 82
weixin_41090915
这个作者很懒,什么都没留下…
展开
-
机器学习-支持向量机(python3代码实现)
支持向量机哈尔滨工程大学-537算法原理:一、寻找最大间隔如下图所示,用一条分割线将两类点分割开来(二维的是一条分割线,多维的就是分隔面),显然三条线都能将两类点分割开来,然而,从直观来看,红色的分割线显然分割效果最好。为什么这么说呢?因为红色的分割线到两边最近的点的距离更远。可以直观把两边的两类点想象成地雷,我们有一支红军要通过这片雷区,显然,沿着绿色和灰色的路线原创 2018-01-27 16:05:09 · 19798 阅读 · 16 评论 -
机器学习-朴素贝叶斯(python3代码实现)
朴素贝叶斯哈尔滨工程大学-537算法原理:代码实现:首先导入将会使用到的库:numpy、re、randomimport numpy as npimport reimport random定义一个text_parse函数,将文档进行分词(将整篇文档切分成单词)解析,得到长度大于2的词的列表。def text_parse(big_string): l原创 2018-01-24 18:04:58 · 1346 阅读 · 0 评论 -
自然语言处理-BM25相关度打分
哈尔滨工程大学-537自然语言处理-BM25相关度打分(注:文中大写Query、Document等代表集合,小写query、document等代表集合中的个体)一、优缺点适用于:在文档包含查询词的情况下,或者说查询词精确命中文档的前提下,如何计算相似度,如何对内容进行排序。不适用于:基于传统检索模型的方法会存在一个固有缺陷,就是检索模型只能处理 Query 与 Docume原创 2018-01-13 20:37:18 · 7520 阅读 · 2 评论 -
自然语言处理-LDA主题模型
LDA主题模型哈尔滨工程大学-537一、LDA主题模型简介LDA(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学习技术。它认为一篇文档是有多个主题的,而每个主题又对应着不同的词。一篇文档的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了这篇文档的原创 2018-01-14 20:08:45 · 15261 阅读 · 8 评论