自然语言处理
千寻~
这个作者很懒,什么都没留下…
展开
-
nlp---使用NLTK进行建构词性标注器
自然语言是人类在沟通中形成的一套规则体系。规则有强有弱,比如非正式场合使用口语,正式场合下的书面语。要处理自然语言,也要遵循这些形成的规则,否则就会得出令人无法理解的结论。下面介绍一些术语的简单区别。文法:等同于语法(grammar),文章的书写规范,用来描述语言及其结构,它包含句法和词法规范。句法:Syntax,句子的结构或成分的构成与关系的规范。词法:Lexical,词的构词,变化等的规...转载 2018-01-31 15:03:43 · 2092 阅读 · 0 评论 -
奇异值分解(SVD)、主成分分析(PCA)、潜在语义索引(LSI)
一、奇异值与特征值基础知识: 特征值分解和奇异值分解在机器学习领域都是属于常用的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧: 1)特征值: 见这篇文章: http://www.cnblogs.com/pinard/p/6251584.html 2)奇异值: 下面谈谈...转载 2018-01-23 21:40:09 · 1137 阅读 · 0 评论 -
中文语料库有哪些
中文自然语言处理开放平台由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15文本语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=16&...转载 2018-05-04 11:21:43 · 20739 阅读 · 4 评论 -
word2vec的原理
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”word2vec是什么word2vec(word to vector)是一个将单词转换成向量形式的工具。word2vec有什么用word2vec适合用作序列数据的分类,聚类和相似度计算。有用作app下载推荐系统中...转载 2018-05-18 12:54:17 · 14793 阅读 · 1 评论 -
关于LSA/LSI的博文
利用Python gensim基于中文语料建立LSA隐性语义模型https://blog.csdn.net/lo_cima/article/details/51852519分布式潜在语义分析案例(Distributed Latent Semantic Analysis)https://blog.csdn.net/questionfish/article/details/46779501潜在语义分析...转载 2018-05-05 17:22:21 · 463 阅读 · 0 评论 -
Word2vec简介,入门
word2vec构建的过程: https://www.cnblogs.com/Newsteinwell/p/6034747.htmlhttps://blog.csdn.net/zhaoxinfan/article/details/11069485Word2vec,是用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输...原创 2018-07-15 17:32:07 · 15778 阅读 · 0 评论 -
jieba 详细介绍
原文:https://github.com/fxsjy/jiebajieba"结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模...转载 2018-07-27 10:54:04 · 14489 阅读 · 1 评论 -
Bow词袋模型原理与实例(bag of words)
The bag-of-words model is a simplifying assumption used in natural language processing and information retrieval. In this model, a text (such as a sentence or a document) is represented as an unordere...转载 2018-09-29 10:50:59 · 5186 阅读 · 0 评论 -
词嵌入向量(Word Embedding)的原理和生成方法
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”Word Embedding词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用Word Embedding将一个单词转换成固定长度的向量表示,从而便于进行数学处理。本文将介绍Word Emb...转载 2018-09-29 11:08:12 · 26116 阅读 · 2 评论 -
nlp--Latent Semantic Analysis(LSA/ LSI)算法简介
1. 传统向量空间模型的缺陷 向量空间模型是信息检索中最常用的检索方法,其检索过程是,将文档集D中的所有文档和查询都表示成以单词为特征的向量,特征值为每个单词的TF-IDF值,然后使用向量空间模型(亦即计算查询q的向量和每个文档di的向量之间的相似度)来衡量文档和查询之间的相似度,从而得到和给定查询最相关的文档。 向量空间模型简单的基于单词的出现与否以及TF-IDF等信息来进行检索,但是...转载 2018-01-12 15:11:04 · 1822 阅读 · 0 评论 -
奇异值分解(SVD)和主成分分析(PCA)(讲解很清楚明了)
奇异值分解(SVD)原文链接:http://www.cnblogs.com/pinard/p/6251584.html主成分分析(PCA)原文链接:http://www.cnblogs.com/pinard/p/6239403.html转载 2018-05-03 16:52:48 · 5207 阅读 · 0 评论 -
nlp--使用TF-IDF进行文档分类(文档相识度分析)
1、TF-IDF与余弦相似性的应用(一):自动提取关键词 2、TF-IDF与余弦相似性的应用(二):找出相似文章 3、如何计算两个文档的相似度(一) 4、gensim做主题模型 5、当然还可以看看吴军博士的《数学之美》第十一章 如何确定网页和查询的相关性。 其中第4篇文章(gensim做主题模型)使用了python的gensim工具包做了关于使用TF-IDF、LDA和LSI的文档...转载 2018-05-03 15:02:31 · 878 阅读 · 0 评论 -
nlp--使用NLTK进行简单文本分析
原文:http://blog.csdn.net/zzulp/article/details/76146947nltk的全称是natural language toolkit,是一套基于python的自然语言处理工具集。1 NLTK的安装nltk的安装十分便捷,只需要pip就可以。pip install nltk在nltk中集成了语料与模型等的包管理器,通过在python解释器中执行(在jupyte...转载 2018-01-31 15:00:45 · 3298 阅读 · 0 评论 -
nlp---Nltk 常用方法
引言在nltk的介绍文章中,前面几篇主要介绍了nltk自带的数据(书籍和语料),感觉系统学习意义不大,用到哪里看到那里就行(笑),所以这里会从一些常用功能开始,适当略过对于数据本体的介绍。文本处理词频提取把切分好的词表进行词频排序(按照出现次数排序),123all_words = nltk.FreqDist(w.lower() for w in nltk.word_tokenize("I'm fo...转载 2018-05-01 19:31:20 · 2795 阅读 · 0 评论 -
Python中文分词 jieba 十五分钟入门与进阶
原文:https://blog.csdn.net/fontthrone/article/details/72782499整体介绍jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐 github:https://github.com/fxsjy/jieba 开源中国地址:http://www.oschina.net/p/jieba/?f...转载 2018-05-01 20:00:14 · 379 阅读 · 0 评论 -
Gensim入门教程
原文:https://www.cnblogs.com/iloveai/p/gensim_tutorial.htmlWhat is Gensim?Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任...转载 2018-05-01 20:21:03 · 2248 阅读 · 0 评论 -
推荐系统之基于图的推荐:基于随机游走的PersonalRank算法
原文目录:https://blog.csdn.net/sinat_33741547/article/category/6442592一 基本概念基于图的模型是推荐系统中相当重要的一种方法,以下内容的基本思想是将用户行为数据表示为一系列的二元组,每一个二元组(u,i)代表用户u对物品i产生过行为,这样便可以将这个数据集表示为一个二分图。假设我们有以下的数据集,只考虑用户喜不喜欢该物品而不...转载 2018-05-09 12:29:26 · 4218 阅读 · 0 评论 -
《推荐系统》基于标签的用户推荐系统
1:联系用户兴趣和物品的方式2:标签系统的典型代表3:用户如何打标签4:基于标签的推荐系统5:算法的改进6:标签推荐源代码查看地址:github查看一:联系用户兴趣和物品的方式 推荐系统的目的是联系用户的兴趣和物品,这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。 ...转载 2018-05-09 21:40:39 · 16613 阅读 · 2 评论 -
利用上下文信息推荐
上下文包括用户访问推荐系统的时间、地点、心情等。一、时间上下文信息1. 时间效应简介用户兴趣是变化的。因为用户自身原因发生的变化。如小时候、长大了;工作时间增加等。若要准确用户现在的兴趣,应更关注用户最近的行为。这样只针对渐变的用户兴趣,对突变的用户兴趣很难起作用物品有生命周期。如电影,受上映时间影响,受新闻事件影响。需考虑物品在该时刻是否已过时。季节效应。反映时间本身对用户兴趣的影响。节日本身...转载 2018-05-09 23:26:34 · 1622 阅读 · 3 评论 -
词嵌入向量(Word Embedding)的建模
1、Embedding函数从前面的定义,我们期望在隐层中找到一个/组嵌入函数W(这里采用lookup table的方式),使得![][3]具体的,假设指定固定的向量维度,W("篮球")=(0.2, -0.4, 0.7, ...),W("苹果")=(0.0, 0.6, -0.1, ...),W初始化时可以赋值给每个维度一个随机数,并通过与output层连接建立学习模型/任务后得到有意义的向量。...原创 2018-09-29 21:48:03 · 6320 阅读 · 1 评论