![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
NLP小姐姐
这个作者很懒,什么都没留下…
展开
-
【自然语言处理】算法笔试系列二
1.如何解决梯度消失问题根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0 。可以采用ReLU激活函数有效的解决梯度消失的情况,也可以用Batch Normalization解决这个问题。ReLU激活函数的形式:单侧抑制,当模型增加N层之后,理论上ReLU神经元的激活率将降低2的N次方倍...原创 2020-04-05 23:17:17 · 480 阅读 · 0 评论 -
【自然语言处理】算法笔试系列一:
1. 请列出几种文本特征提取算法:词频-逆向文件频率(TF-IDF) :它可以体现一个文档中词语在语料库中的重要程度。Word2Vec :是一个Estimator,它采用一系列代表文档的词语来训练word2vec model。该模型将每个词语映射到一个固定大小的向量。word2vec model使用文档中每个词语的平均数来将文档转换为向量,然后这个向量可以作为预测的特征,来计算文档相似度计...原创 2020-04-05 18:59:58 · 1196 阅读 · 0 评论 -
NLP之文本分类实战
文本分类的目的:知道这个文档是做什么的!训练数据使用sklearn提供的新闻媒体的数据**步骤:**先使用向量空间模型将文本表示为向量,之后TF—IDF特征计算,然后使用朴素贝叶斯作为文本分类器,并在sklearn数据集上进行测试。最后使用常用评估方法来评估分类器的结果。# -*- coding: gb2312 -*-from sklearn.datasets import fetch...原创 2020-03-21 15:15:56 · 517 阅读 · 0 评论 -
NLP之统计语言模型—N元模型(N-Gram)
总的来说,语言模型可以分为两种,分别是规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位的内在统计规律,广泛应用于机器翻译、语音识别、印刷体和手写体识别、拼写纠错、汉字输入和文献查询。N-Gram假设:第n个词的出现只与前面的n-1个词相关,而与其他任何词都不相关,整句的概率是各个词出现概率的乘积。这种可以结合上下文方法其实就是马尔可夫假设,结合上下文信息,预测将要出现的那...原创 2020-03-21 13:48:52 · 1566 阅读 · 0 评论 -
NLP之语义角色标注
语义角色标注需要提取以动词为核心的所有信息,包含什么时间、什么地点、动作对象以及谁作出了这个动作。语义角色标注中的几个重要概念:谓词:在一个句子中,谓语是对于主语的描述或判断的词,通常为一个动词。在句中谓词指出“做什么”、“是什么”、“怎么样”,代表了一个句子的核心。论元:在句子中和谓词搭配的通常是一个名词,我们称其为论元。语义角色:我们在为论元加上一些描述,指出它和动词搭配时担任的...原创 2020-03-21 13:14:09 · 1874 阅读 · 0 评论 -
NLP之依存句法分析
句法分析:其主要任务是确定句子的句法结构或者句子中词汇之间的依存关系。句法分析主要包括两方面:一是确定语言的语法体系,即对语言中合法的句子的语法结构与形式化的定义;第二是句法结构分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。NLP领域最为广泛的两种语法分析理论,分别为转换生成语法和依存语法。依存句法满足以下五点:一...原创 2020-03-21 10:25:24 · 1065 阅读 · 0 评论 -
NLP之词性标注-Jieba标注
词性标注:将词汇按照词性进行分来并相应地进行标注。Jieba词性标注的基本原理可以概括为:对于需要标注的词,如果词典中包括该词,就从词典中读取该词的词性;如果没有该词,则用Viterbi算法来进行词性估计。代码展示:# -*- coding: utf-8 -*-import jieba.posseg as psegwords=pseg.cut("我爱北京天安门")for word,...原创 2020-03-20 10:27:09 · 639 阅读 · 0 评论 -
NLP之文本表示—N-gram表示
词频或词频-逆文档频率的方法表示文本非常容易理解,但是这种向量表示会忽视文档的词序和语法结构。N-gram是将连续的n个词作为向量空间中的一个维度。在该语法中,向量空间也被称为词袋(Bag-of-words),对于一个文本,忽略其词序和语法、句法,将其仅仅看作是一个词集合,或者说是一个词的组合,文中的每个词的出现都是独立的,不依赖于其他词是否出现,可以将不同维度看作一个袋子里面的很多词。举例...原创 2020-03-20 09:34:52 · 1957 阅读 · 0 评论 -
NLP之词频向量化-sklearn模块
在scikit-learn工具包中有特征提取模块可以快速将文本表示为向量。sklearn在实现文本表示时默认方式是将语料中的每个分词(忽略单个字或字母的词)看作一个特征,将多个·文档表示成一个矩阵形式,每一行为一篇文档。每篇文档为固定长度,这个长度为分词总数。python安装sklearn模块 pip install -U scikit-learn假设我们有多篇文档,现在使用 vect...原创 2020-03-19 18:20:03 · 1739 阅读 · 0 评论 -
NLP之文本表示——二值文本表示
文本原始结构为非结构化的字符串,大部分的模型和算法都不能处理非结构化的数据。因此,我们需要将非结构化的数据结构化。方法:将文本映射到特定的特征空间上,将文本表示为能够刻画其信息的特征向量,使得我们可以利用各种算法模型来处理这些文本数据。什么样的特征能刻画文本信息呢?将特征选为文本中出现的词,通过定义词在文本中的重要度得到文本的向量表示。在主流的文本表示方法中,大致可以将文本表示方法分为...原创 2020-03-16 11:42:51 · 229 阅读 · 0 评论 -
NLP之词频统计实战
# -*- coding: gb2312 -*-'''2020/3.25 词频统计'''#读入数据raw_content=[]with open('3635.txt',"r",encoding='UTF8') as fin: [raw_content.append(line) for line in fin.readlines() if line.strip()!=''] ...原创 2020-03-15 23:20:54 · 1161 阅读 · 0 评论 -
【NLP之文本预处理】使用正达则式去除或替换无用信息
一 文本预处理介绍文本预处理一般是指将原始数据通过数据转换,缺失处理等手段转化为符合要求的“新”数据集的过程。预处理本身是一件极其耗费时间的事情,繁琐且涉及细节很多。预处理做的不好,对后面的建模分析等等都会有很大的影响。原创 2020-03-03 13:30:14 · 1296 阅读 · 0 评论 -
Hanlp在python环境中安装及使用
注意:测试的时候是在anaconda prompt中先输入pythonpython再一行一行输入测试代码。原创 2019-09-28 20:11:16 · 597 阅读 · 0 评论 -
Stanford NLP在Python环境中的安装与使用
原创 2019-09-28 19:00:03 · 214 阅读 · 0 评论