自然语言处理
文章平均质量分 95
NLP
Dawn_www
这个作者很懒,什么都没留下…
展开
-
IR:检索模型
# 信息检索模型 信息检索的主题之一是定义一个无须工程师提炼规则的模型。这样的检索模型(retrieval model)应该尽可能准确地捕获相关性的概念。给定一组搜索结果,检索模型将对它们进行排序:结果越相关,分数越高。# TF-IDF 一种度量文档相对于查询的重要性的常见方法,是利用基于查询和文档中的词项计算出的统计数据。这种检索模型称为信息检索的统计模型(statistical models for information retrieval) # 示例 ...原创 2021-09-03 00:23:54 · 1534 阅读 · 0 评论 -
NLP:预训练+转移学习
以情感分析(supervised)为例,探究一直以来是如何解决该NLP任务的?2013年1️⃣randomly initialize the model params (这些参数都是从头开始学习,模型需要从少量的标注数据集中学习语言的运作方式2️⃣ update all params by backprop using cross entropy loss from labeled training set2014 ~ 2017 年 Why train everythi...原创 2021-08-12 14:08:41 · 1690 阅读 · 0 评论 -
NLP:self-attention + Transformer
前言 通常认为RNN有两个缺点:1、RNN隐藏层中记录的较早信息会随着时间步的推移而冲淡,所以就无法建立起和较早时间步信息的依赖关系。2、RNN不能并行化处理。因而催生出了attention解决上述问题。 Attention机制的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上。背...原创 2021-07-22 14:32:00 · 390 阅读 · 0 评论 -
AllenNLP2.2.0:入门篇
前言 AllenNLP 是艾伦人工智能研究院开发的开源 NLP 平台。它的设计初衷是为 NLP 研究和开发(尤其是语义和语言理解任务)的快速迭代提供支持。它提供了灵活的 API、对 NLP 很实用的抽象,以及模块化的实验框架,从而加速 NLP 的研究进展。安装1. 若有GPU查看CUDA版本 输入nvcc -V命令,即可查询到CUDA版本号2.1 Windows版 torch安装教程:链接# 安装pytorchpip install torch==...原创 2021-05-16 22:13:10 · 1433 阅读 · 0 评论 -
NLP:HMM、MEMM、CRF序列标注
前言 概率序列模型:它的工作是为序列中的每个单元分配一个标签或类,从而将一个观察序列映射到一个标签序列。给定一个单位序列(单词、字母、语素、句子,等等),它计算可能的标签序列的概率分布,并选择最佳的标签序列,即Seq2Seq。Markov Chains马尔科夫链 图中节点表示状态,弧线表示状态的转移,其上数字表示转移的概率(注:离开给定状态的弧的值之和必须为1 一个马尔可夫链由以下部分组成:HMM 隐式马尔可夫模型 在许多情况下,我们...原创 2021-05-15 18:28:04 · 1925 阅读 · 0 评论 -
HanLP的依存分析
# 安装1. 创建虚拟环境(非必要操作conda create -n hanlp python=3.72. 安装HanLP(当在线安装失败时,可选择离线安装 [hanlp库]pip install hanlp-2.1.0a36.tar.gz3. HanLP的使用import hanlpHanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # 世界最原创 2021-04-29 10:55:52 · 3591 阅读 · 0 评论 -
Spacy的依存分析
模型 上次使用spacy时,官网提供的模型有en_core_web_sm、en_core_web_md和en_core_web_lg,现在发现又提供了一种en_core_web_trf。根据说明解释 trf 是larger and slower pipeline, but more accurate,而 sm是faster and smaller pipeline, but less accurate [来源] 导入方式也增加了一种# 方式一import spacynlp =...原创 2021-04-02 17:34:44 · 7792 阅读 · 1 评论 -
百度DDParser的依存分析
1.安装百度深度学习框架paddlepaddle飞桨python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple2. 安装DDParserpip install ddparser3. 报错 [链接]RuntimeError: paddle-ernie requires paddle 1.7+, got 2.0.14. 打开C:\Anaconda3\lib\site-packages\dd.原创 2021-04-01 20:20:18 · 3716 阅读 · 0 评论 -
哈工大LTP的依存分析
安装 1. pip install ltp 2. 允许代码后报错Microsoft Visual C++ Redistributable is not installed, this may lead to the DLL load failure. It can be downloaded at https://aka.ms/vs/16/release/vc_redist.x64.exe 3. 根据报错里提供的网址下载vc_redist...原创 2021-03-31 19:35:11 · 6307 阅读 · 0 评论 -
NLP:依存分析
前言 自然语言处理任务中,有很重要的一块,就是分析语言的结构。语言的结构,一般可以有两种视角: 1. 组成关系(Constituency) 句法结构分析(syntactic structure parsing),又称短语结构分析(phrase structure parsing),也叫成分句法分析(constituent syntactic parsing)。作用是识别出句子中的短语结构以及短语之间的层次句法关系。 2. 依赖关系(Dependency)...原创 2021-03-31 18:56:57 · 5753 阅读 · 1 评论 -
文本数据挖掘:TextRank模型
简介 TextRank基本思想来源于Google的PageRank算法。这种算法是1997年,Google创始人拉里.佩奇和谢尔盖.布林在构建早期的搜索系统原型时提出的一种链接分析算法,基本思想有两条: 1)链接数量。一个网页被越多的其他网页链接,说明这个网页越重要. 2)链接质量。一个网页被一个越高权值的网页链接,也能表明这个网页越重要. 与TF-IDF...原创 2020-01-10 22:42:37 · 2189 阅读 · 0 评论 -
文本数据挖掘一般步骤
转载自潇一:简要的谈谈文本数据挖掘的一般步骤原文 一、获取文本 一般来说网络文本的获取,主要是网页的形式。我们要把网络中的文本获取形成一个文本数据库(数据集)。利用一个爬虫(这是另外一个知识点),抓取到网络中的信息。爬取的策略有广度和深度爬取;根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分,主题爬取主要是在相关站点爬取或者爬取相关主题的文本,而通用爬虫则一般对此...转载 2020-01-24 11:06:52 · 4260 阅读 · 0 评论 -
NLP:n-gram模型
N-Gram N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念。主要有两个重要应用场景: (1)人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。 (2)用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。 习惯上,1-gram叫unigram,2-gram称为bigram,3-gram是trigram。还有four-gram、five-gram等,不过大于n>5的应用很少见。常用的是Bi-gram (N...原创 2020-09-22 15:35:07 · 14262 阅读 · 4 评论 -
NLP:Word2Vec
前言 之前写过的一篇博客提到过Word2Vec,但也只是草草说了一下基本的认识。最近在看自然语言处理相关书籍时,发现Word2Vec是个很重要的东西,且原理也并没有以为的那么难以理解,所以在此再梳理一下。概述 Word2Vec是Google在2013年推出的一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。Word2Vec的目的是理解两个或更多单词一起出现的概率,从而将具有相似含义的单词组合在一起,在向量空间...原创 2020-12-21 16:33:32 · 1426 阅读 · 0 评论