自然语言处理总结-学习记录
文章平均质量分 76
将在大学里自学的自然语言处理的知识进行记录,涉及内容有网上的书籍、自己的感想设想、以及现成的公共库代码和书籍上的代码。
Tony Einstein
人生苦短,我用Python。记录生活,记录成长,天道酬勤,佛系更新。
做一个会思考、会解决问题的思考者!希望得到你的关注、点赞、收藏!
展开
-
12.NLP中的RNN、LSTM、GRU
一般自然语言处理的传统方法是将句子处理为一个词袋模型(Bag-of-Words,BoW),而不考虑每个词的顺序,比如用朴素贝叶斯算法进行垃圾邮件识别或者文本分类。在中文里有时候这种方式没有问题,因为有些句子即使把词的顺序打乱,还是可以看懂这句话在说什么.但有时候不行,词的顺序打乱,句子意思就变得让人不可思议了。是一种语言模型(Language Model,LM),是一个基于概率的判别模型,它的输入是一句话(词的顺序序列),输出是这句话的概率,即这些词的联合概率(Joint Probability)。原创 2022-11-02 00:00:34 · 629 阅读 · 0 评论 -
11.基于ML的中文短文本聚类
一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。原创 2022-11-01 23:48:06 · 273 阅读 · 0 评论 -
10.基于ML的中文短文本分类
司法数据,需求是对每一条输入数据,判断事情的主体是谁,比如报警人被老公打,报警人被老婆打,报警人被儿子打,报警人被女儿打等来进行文本有监督的分类操作。原创 2022-11-01 23:42:06 · 229 阅读 · 0 评论 -
9.知识图谱和知识挖掘的了解
知识图谱想做的,就是在不同数据(来自现实世界)之间建立联系,从而带给我们更有意义的搜索结果。比如:用 Google 搜索自然语言处理,右侧会显示研究领域和相关概念。点击这些知识点,又可以深入了解;再比如,搜索一个人名时,右侧会给出此人的生平、背景、居住位置、作品等信息。原创 2022-11-01 23:33:37 · 1346 阅读 · 0 评论 -
8.词袋和词向量模型
文本数据(非结构化数据)转换成计算机能够计算的数据。有两种常用的模型:词袋和词向量模型。原创 2022-11-01 23:27:58 · 1566 阅读 · 0 评论 -
7.中文句法依存分析
句法分析是自然语言处理(NLP)中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。句法分析被用在很多场景中,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。原创 2022-11-01 23:21:10 · 2175 阅读 · 0 评论 -
6. 中文命名实体提取
命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。原创 2022-11-01 23:13:24 · 827 阅读 · 0 评论 -
5. 中文文本的关键字提取
关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。关键词抽取从方法来说主要有两种:第一种是关键词分配:就是给定一个已有的关键词库,对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词。第二种是关键词提取:针对新文档,通过算法分析,提取文档中一些词语作为该文档的关键词。目前大多数应用领域的关键词抽取算法都是基于后者实现的,从逻辑上说,后者比前者在实际应用中更准确。原创 2022-11-01 23:05:07 · 2767 阅读 · 0 评论 -
4.HMM和CRF的使用和应用
简单从贝叶斯定理说起,若记 P(A)、P(B) 分别表示事件 A 和事件 B 发生的概率,则 P(A|B) 表示事件 B 发生的情况下事件 A 发生的概率;P(AB)表示事件 A 和事件 B 同时发生的概率。(1)生成式模型:估计的是联合概率分布,P(Y, X)=P(Y|X)*P(X),由联合概率密度分布 P(X,Y),然后求出条件概率分布 P(Y|X) 作为预测的模型,即生成模型公式为:P(Y|X)= P(X,Y)/ P(X)。原创 2022-11-01 22:56:04 · 455 阅读 · 0 评论 -
3.NLP基础:文本可视化简述
文本可视化依赖于自然语言处理,因此词袋模型、命名实体识别、关键词抽取、主题分析、情感分析等是较常用的文本分析技术。文本分析的过程主要包括特征提取,通过分词、抽取、归一化等操作提取出文本词汇级的内容,利用特征构建向量空间模型并进行降维,以便将其呈现在低维空间,或者利用主题模型处理特征,最终以灵活有效的形式表示这些处理过的数据,以便进行可视化呈现。基于文本内容的可视化研究包括基于词频的可视化和基于词汇分布的可视化,常用的有词云、分布图和 Document Cards 等。原创 2022-10-31 00:31:37 · 3212 阅读 · 0 评论 -
2. NLP基础 : 分词
分词、jieba、pyhanlp、词性标注、停用词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型。jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。原创 2022-10-31 00:26:42 · 296 阅读 · 0 评论 -
1. NLP基础概念解析
语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)。(定义来源:百度百科)按语料来源,我们将语料分为以下两种:(1).已有语料:很多业务部门、公司等组织随着业务发展都会积累有大量的纸质或者电子文本资料。原创 2022-10-31 00:15:45 · 1121 阅读 · 0 评论 -
Gensim词袋向量和语料库
在这个简单的示例中,它没什么大不了,但是只是为了使事情变得清楚,我们假设语料库中有数百万个文档。将所有这些都存储在RAM中是行不通的。相反,我们假设文档存储在磁盘上的文件中,每行一个文档。在这种表示形式中,每个文档都由一个矢量表示,其中每个矢量元素代表一个问题-答案对,格式为:(词语/ID,num次数),注:问题与ID之间的映射称为字典。Gensim通过前面提到的流式语料库接口实现它们:以惰性方式从磁盘读取文档(或将其存储到磁盘),一次仅一个文档,而整个语料库不会一次读入主存储器。原创 2022-10-30 14:50:38 · 298 阅读 · 0 评论 -
Gensim核心概念以及使用流程
将语料库中的每个单词与唯一的整数ID相关联。tf-idf模型将向量从词袋表示转换为向量空间,在该向量空间中,将根据语料库中每个词的相对稀有度对频率计数进行加权。【注意,由于不在原始语料库中,所以有些词是无法转换的,也就说这个东东完全是依靠语料库的强大,是优点也是缺点】以上Doc2Bow产出的向量列表,可以作为一些分类算法/预测算法的/深度模型的输入数据。处理的语料库中有9个唯一的词,这意味着在词袋模型下,每个文档将由9维向量表示。每个元组中的第一个条目对应于字典中令牌的ID,第二个条目对应于此令牌的计数。原创 2022-10-30 14:34:45 · 1516 阅读 · 0 评论 -
Gensim主题和转换
tfidf对象被视为只读对象,可用于将任何矢量从旧表示形式(单词袋整数计数)转换为新表示形式(TfIdf实值权重)。将文档从一种矢量表示转换为另一种。原创 2022-10-30 14:41:02 · 120 阅读 · 0 评论