NLP
子燕若水
子燕若水
展开
-
日文转罗马音
参考链接: 日语nlp工具集锦。原创 2023-02-12 00:52:49 · 597 阅读 · 0 评论 -
语音识别中的HMM-GMM模型
语音识别中的HMM-GMM模型:从一段语音说起 - 知乎原创 2022-12-28 12:04:19 · 168 阅读 · 0 评论 -
【图解】Bahdanau提出的基于注意力的RNN
通过利用这种机制,解码器可以捕获输入seq的全局信息,而不是仅仅基于一个隐藏状态进行推断。蓝色代表编码器,红色代表解码器。原创 2022-12-15 10:14:52 · 275 阅读 · 0 评论 -
pyhanlp 繁简转换,拼音转换与字符正则化
无转载 2022-12-11 21:03:55 · 102 阅读 · 0 评论 -
NLP神经网络之一维卷积的处理【Conv1D】和GLU层
接下来,这个卷积层连接到最大池化层。这基本上是为了减少数据的维数,这样训练过程可能需要更短的时间。事实上,并不总是需要在卷积之后立即使用这一层,但我还是决定使用它。下面是另一张图,显示了一维卷积层的过滤器(以蓝色突出显示)如何跨步。此外,我将针对这种情况使用 32 种不同的过滤器(尽管这可能有点矫枉过正)。层,以防止模型过快过拟合。层,由一个具有 sigmoid 激活函数的神经元组成。事实上,该层的主要思想与我们在图像分类任务中常用的。之后,我们将这个embedding层连接到一个。Conv2D完全相同。原创 2022-11-27 13:58:25 · 1132 阅读 · 0 评论 -
[图解] Beam Search
The size of beam is 3 in this example.原创 2022-11-06 21:34:38 · 154 阅读 · 0 评论 -
指数和对数总结【图形+公式】
对各指标取log后再平均得到的值可以作为一个合理的组合指标。一个合理的平均方案必须考虑到这种指数衰减,从指标1到指标4大致随n增加呈指数衰减,下图四个指标如何平均为一个组合指标?原创 2022-09-25 13:23:25 · 1115 阅读 · 0 评论 -
moses数据预处理
中文的预处理好做很多,除了分词,可做的就不多了,相比之下,英文的预处理就变得繁琐了很多,比如在bpe的子词词典中,我们可以看到American’s 和american’s同时存在于词典,并且英文的标点符号和单词之间是没空格分隔的,所以如果直接对英文按照空格进行分词,cat和cat.就可能占据词典中两个词的位置,这些都是不合理的,会浪费词典的位置。所以对英文的处理是及其有必要的。但是如果我们要用词级别的翻译,那词典太大了,在机器翻译中词典受限的情况下,很多词就会变为未登录词。–将句子长度控制在1-80。转载 2022-09-23 23:42:30 · 286 阅读 · 0 评论 -
斯坦福讲解subword(Byte Pair Encoding or BPE)
subword - 搜索结果 - 知乎转载 2022-09-18 22:46:20 · 104 阅读 · 0 评论 -
人人都能看懂的LSTM
长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。LSTM结构(图右)和普通RNN的主要输入输出区别如下所示。转载 2022-09-15 11:31:46 · 236 阅读 · 0 评论 -
基于RNN的语言模型实现与利弊
无原创 2022-09-14 21:12:18 · 143 阅读 · 0 评论 -
机器翻译的评估指标-BLEU 【图解】
有人写过了,我记录一下。转载 2022-09-09 12:29:33 · 229 阅读 · 0 评论 -
Concatenate[图解]
需要将两个输入链合并在一起。Keras Concatenate 层可让您。Concatenate 层不进行任何计算;两个向量或张量合二为一,如图 11.5 所示。它需要一个可选的轴参数。因为你的行动价值网络有两个输入和一个输出,在某些时候你。在这种情况下你想要什么。所有其他尺寸必须相同。它默认为最后一个维度,即。原创 2022-09-05 12:52:51 · 712 阅读 · 0 评论 -
隐形马尔可夫模型及其训练(一)
马尔可夫假设,即随机过程中各个状态S:的概率分布只与它的前一个状态S-1有关。独立输出假设,隐马尔可夫模型在每个时刻t会输出符号Ot:,而且Ot跟St相关且仅跟St相关 代入(5.3)得到 给定足够量的观测数据,如何估计隐马尔可夫模型的参数 直接得到。有监督的训练的前提是需要大量人工标注的数据。很遗憾的是,很多应用都不可能做到这件事,比如在语音识别中的声学模型训练。人是无法确定产生某个语音的状态序列的,因此也就无法标注训练模型的数据。而在另外一些应用中,虽然标注数据是可行的,但是成原创 2022-06-09 20:06:21 · 634 阅读 · 0 评论 -
spacy nlp 传入token word list而不是raw text
from nltk.tokenize import word_tokenizeimport spacyfrom spacy.symbols import nsubj, nsubjpass, VERB, acomp, ccomp, conj, csubj, csubjpassfrom spacy.tokens import Doc# doc = nlp(text)words = word_tokenize(text)doc = Doc(nlp.vocab, words=words)for n.原创 2021-11-01 22:27:52 · 181 阅读 · 0 评论 -
Spacy POS和依赖分析(Dependency Parsing)里面tag的含义是?
Spacy POS Tags ListEvery token is assigned a POS Tag in Spacy from the following list:POS DESCRIPTION EXAMPLES ADJ adjective *big, old, green, incomprehensible, first* ADP adposition *in, to, during* ADV adverb *very, tomo原创 2021-10-30 20:35:20 · 719 阅读 · 0 评论 -
NLP之用nltk分词的例子
Natural Language toolkit has very important module NLTKtokenizesentences which further comprises of sub-modulesword tokenize sentence tokenizeTokenization of wordsWe use the methodword_tokenize()to split a sentence into words. The output of word ...转载 2021-10-01 11:01:43 · 355 阅读 · 0 评论 -
NLP Parse 中容易出错的句子
Here's an impressive example from a Winnie the Pooh story by A.A. Milne, In which Piglet is Entirely Surrounded by Water:************************************Probabilistic parsers use knowledge of language gained from hand-parsed sentences to try to...原创 2021-09-30 12:32:09 · 117 阅读 · 0 评论 -
NLP之关系提取
首先,使用句子分割器将该文档的原始文本分割成句,使用分词器将每个句子进一步分词。接下来,对每个句子进行词性标注POS。下一步,我们寻找每个句子中提到的潜在的有趣的实体。In named entity detection, we segment and label the entities that might participate in interesting relations with one another。最后,we search for specific patterns betwe.原创 2021-09-28 18:56:41 · 321 阅读 · 0 评论 -
Context-Free Gramma 和 probabilistic context free grammar
CFGPCFGA probabilistic context free grammar (or PCFG) is a context free grammar that associates a probability with each of its productions. It generates the same set of parses for a text that the corresponding context free grammar does, and assigns.原创 2021-09-26 15:14:31 · 87 阅读 · 0 评论 -
快速了解WordNet
1、什么是WordNetWordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。WordNet是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。Wordnet的词汇结构包括九大类:上下位关系(动词、名词)、蕴含关系(动词)、相似关系(名词)、成员部分关..原创 2021-09-22 12:59:41 · 3068 阅读 · 0 评论 -
Semantic Role Labeling (SRL)
原文链接:https://zhuanlan.zhihu.com/p/35789254转载 2021-08-27 10:03:17 · 274 阅读 · 0 评论 -
java读CSV文件入数组
1. 概述简而言之,CSV(逗号分隔值)文件包含由逗号分隔符分隔的有组织的信息。在本教程中,我们将研究将 CSV 文件读入数组的不同方法。2.BufferedReader中在java.io首先,我们看使用BufferedReader中的readLine()逐行读取成为一行一行的字符串。然后我们将根据逗号分隔符将字符串行拆分为token。List<List<String>> records = new ArrayList<>();tr...翻译 2021-08-25 18:54:03 · 2075 阅读 · 1 评论 -
Stemming and lemmatization
Stemming和lemmatization的区别Stemming通常指的是一种粗略的砍枝叶过程,它在大多数情况下希望能正确地实现这个目标,它会砍掉单词的结尾词缀、屈折词素Inflectional Morphemes,并且通常会去除derivational morpheme派生词素。词形还原通常也是砍枝叶过程,通常仅去除屈折词素Inflectional Morphemes并返回单词的基本或字典形式。StemmingStemming 是指将一个词简化为它的词根root形式的过程。在执行自...原创 2021-08-24 16:58:16 · 564 阅读 · 0 评论 -
NLP之语言词素Morpheme(形态学)
Morpheme (语素),人类语言中表达语义的最小单元。举个例子:Eat 表示“吃”,不能再分了,ea 或 at 在这里都没有任何意义。所以eat是一个word,也是一个Morpheme。 Tomcats 表示 “雄猫”的复数,(包含三个 morphemes: tom = male, cat=animal, -s = plural) Morpheme语素,可以分为两类,Free Morpheme和Bound Morpheme。Free Morpheme,比如前面的eat,可以...原创 2021-08-24 11:07:27 · 14299 阅读 · 0 评论 -
编译生成动态链接库pdfium.dll
1)git clone 源码PDFium源码托管在https://pdfium.googlesource.com/pdfium/。所以先得有个访问谷歌的工具吧。这个得自己找。2)编译工具及环境搭建https://chromium.googlesource.com/chromium/src/+/main/docs/windows_build_instructions.md#Setting-up-the-buildhttps://pdfium.googlesource.com/pdfium/+原创 2021-07-26 10:52:22 · 1712 阅读 · 0 评论 -
spacy POS 和 Syntactic Dependency Parsing 的标记
https://spacy.io/api/annotation#dependency-parsing原创 2021-07-19 22:12:21 · 272 阅读 · 0 评论 -
NLTK was unable to find the megam file!
下载megam-64.opt,放到一个地方https://github.com/rjafarau/nltk-book/blob/master/docker/jupyter/megam-64.optchmod 777/home/hl/data/megam-64.optnltk.config_megam('/home/hl/data/megam-64.opt')原创 2021-07-18 19:31:44 · 297 阅读 · 0 评论