自然语言处理
文章平均质量分 50
love_data_scientist
这个作者很懒,什么都没留下…
展开
-
《NLP汉语自然语言处理原理与实践》第四章 NLP中的概率图模型
目前最流行的算法思想包含如下两大流派:基于概率论和图论的概率图模型;基于人工神经网络的深度学习理论。4.1概率论回归 4.1.1 多元概率论的几个基本概念 4.1.2 贝叶斯与朴素贝叶斯算法 朴素贝叶斯理论源于随机变量的独立性,之所以称之为朴素是因为其思想基础的简单性:就文本分类而言,从朴素贝叶斯的角度来看,句子中的两两词之间的关系是相互独立的,即一个对象的特征原创 2017-09-14 16:29:18 · 827 阅读 · 0 评论 -
数据挖掘、检索、自然语言处理
为什么要把这三个关键词写在一起呢?对于文本挖掘,第一步:在理解业务的基础上进行分词,这就涉及到nlp相关的知识了,目前我接触到中文分词比较好用的就是结巴中分分词,可能是我用python多一些,而结巴在python中安装和使用很方便的。第二步:提取关键词。那么为什么要提取关键词?,我们练习做垃圾邮件分类的时候,大部分没有提取关键词,直接使用贝叶斯公式处理,效果还可以的。但是当我们的文本信息特别多原创 2017-09-27 10:43:46 · 23596 阅读 · 0 评论 -
《NLP汉语自然语言处理原理与实践》第一章
规则派还是统计派:1.规则派:以语言学理论为基础,根据语言学家对语言现象的认识,采用规则形式描述或解释歧义行为或歧义特性。规则派首先要对大量的语言现象进行研究,归纳出一系列的语言规则。然后再形成一套复杂的规则集----语言分析或生产系统,对自然语言进行分析处理。2.统计派:以基于语料库的统计分析为基础的经验主义方法,该方法更注重用数学,从能代表自然语言规律的大规模真实文本中发现知识原创 2017-09-11 10:59:29 · 4800 阅读 · 0 评论 -
文本数据挖掘-----词向量
中文数据挖掘的难点在于如何把文本变成计算机处理的向量,一个好的词向量方法可以提升分类或者其他应用效果。我把自己接触的词向量技术总结一下,方便自己复习和其他感兴趣的小伙伴交流学习。使用结巴或者其他中文分词工具分完词后就需要生成词向量了,方便后期的数据挖掘工作的展开。 词向量技术:我接触的大致可以分成(1)基于统计的方法(2)基于图的方法(3)基于主题模型的方法(4)基于深度学习原创 2017-11-06 19:01:11 · 2908 阅读 · 0 评论 -
word2vec资料收集
一文详解 Word2vec 之 Skip-Gram 模型(结构篇) https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html一文详解 Word2vec 之 Skip-Gram 模型(实现篇) https://www.leiphone.com/news/201706/QprrvzsrZCl4S2lw.html一文详解 Wor原创 2018-01-15 19:00:44 · 282 阅读 · 0 评论 -
重要比赛集锦
kaggle https://www.kaggle.com/ challenger.ai 全球AI调整赛 https://challenger.ai/ https://tianchi.aliyun.com/competition/index.htm 阿里天池大数据比赛原创 2018-07-11 17:50:25 · 175 阅读 · 0 评论 -
linux系统从百度网盘中拉大文件数据
有些深度学习相关的数据集合很有用,而且数据量特别大,为了以后学习使用,通常保存到百度网盘中。有时候数据来源于比赛网站,不能直接使用wget url获得数据,可以先把数据保存到百度网盘,通过离线下载输入相应的url,进行数据保存。在linux命令行中,快速的拉取数据变的很有用了,结果自己的经历,特把成功过程总结如下。1.在谷歌浏览器中安装Tampermonkey插件(http://tampermon...原创 2018-07-12 17:11:30 · 889 阅读 · 0 评论 -
learning to rank学习笔记
learning to rank是这几年火起来的一个学科,可以应用于检索、推荐等排序场景中。我们的业务场景大都和排序相关,那么掌握住learning to rank就又多了一条解决业务问题的方法。常见的排序算法:1.文本相关性计算方法:BM25,TF_IDF,word2vec等。2.图像相似度计算方法:平均哈希(aHash),感知哈希(pHash),差异值哈希。3.图文相关性使用g...原创 2018-09-29 19:52:17 · 418 阅读 · 0 评论