花雍698-CSDN博客

原创【NLP方向】【万时计划】65-71

Seq2seq是机器学习里用于自然语言处理的一个算法簇，主要应用于语言翻译，画像字幕，会话模型和文本摘要提取。起初是谷歌发明用于机器翻译的算法。2019年提出了用其求解符号数学的问题，包含函数微分，一阶常微分方程，二阶常微分方程等复杂问题。目前主流的Seq2seq模型包括：Seq2seq模型的输入是一系列的单词，输出是被翻译过后的另外一系列单词。该模型主要分为两部分：将上图中的RNN cell进一步透明化，表示RNN模型中的一个神经元细胞。每个神经元细胞的输入包括两部分：input和hidden state

2022-06-16 14:25:14 162

原创【NLP方向】【万时计划】58-64

指得是利用循环神经网络解决文本分类的问题，文本分类是自然语言处理的一个基本任务，试图推断出文本的标签或标签集合。当对序列进行处理的时候，一般采用循环神经网络RNN，尤其是LSTM、GRU等变体更为常用。此处的对象文本可以是一个句子，也可以是文档（短文本、若干句子）或篇章（长文本），因此，每段文本的长度都不尽相同。在对文本进行分类的时候，我们一般会指定一个固定的输入序列/文本长度，该长度可以是最长文本/序列的长度，此时其他文本进行填充。或进行其他操作将测试集中的文本/序列的长度规范化。首先，需对文本进行分

2022-06-15 14:05:19 230

原创【NLP方向】【万时计划】51-57

LSTM单元Long-Short Term Memory RNN 长短时记忆模型循环神经网络，是RNN的一种特殊实现Long-Short Term Memoryshort term memory相对于当前的任务，有时我们只需考虑最近的信息"the clouds are in the sky"long term memory相关信息和需要它的点之间的距离很远。RNN在short-term上表现不错，但long-term就不理想了，所以有人提出了LSTM，它被广泛地运用，并在相当多的问题上表现很好上图为含

2022-06-14 09:15:46 93

原创【NLP方向】【万时计划】45-50

基本思路是：用上下文预测目标词汇。输入层由目标词汇yyy的上下文单词{x1,...,xc}\{{{x}_{1}},...,{{x}_{c}}\}{x1,...,xc}组成，xi{x}_{i}xi是被onehot编码过的V维向量，其中V是词汇量；隐含层是N维向量h；输出层是被onehot编码过的目标词y。输入向量通过V∗NV*NV∗N维的权重矩阵W′{W}'W′连接到输出层。因为词库VVV往往非常大，使用标准的softmax计算相当耗时，于是CBOW的输出层采用的是上文提到的分层Softmax假设已经获

2022-06-09 17:33:00 80

原创【NLP方向】【万时计划】38-44

英语单词通常有其内部结构和形成方式。如"dog"“dogs”“dogcatcher”,这些词都有同一个词根dog，但使用不同的后缀来改变词的含义。且此关联可以推广至其他词汇。在word2vec中并没有利用到构词学中的信息。无论是在跳字模型还是连续词袋模型中，都将形态不同的单词用不同的向量表示且模型中，如"dog""dogs"分别用两个不同的向量表示，而模型中并未直接表达这两个向量之间的关系。鉴于此，fastText提出了子词嵌入(subword embedding)的方法，从而试图将构词信息引入word2v

2022-06-09 09:00:58 55

原创【NLP方向】【万时计划】31-37

用一个词附近的其他词来表示该词。基于人的语言表达，认为一个词是由这个词的周边词汇一起来构成精确的语义信息。词文档的共现矩阵主要用于发现主题(topic),用于主题模型，如LSA。局域窗中的word-word共现矩阵可以挖掘语法和语义信息中间每个格子表示的是行和列组成的词组在词典中共同出现的次数即共现特性。存在的问题：神经网络语言模型是03年提出来的，通过训练得到中间产物——词向量矩阵，即文本表示向量矩阵。NNLM定义一个前向窗口大小，把这个窗口中最后一个词当作y把之前的词当作输入x，通俗来说就是预测这个窗

2022-06-07 16:27:33 143

原创【NLP方向】【万时计划】23-30

句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的关系，通常会以句法树来表示句法分析的结果。句法分析决定着自然语义处理进度，主要面临以下两个问题：歧义和搜索空间。自然语言区别于人工语言的一个重要特点就是它存在着大量的歧义现象。人们可以依靠大量的先验知识有效的消除掉歧义，而在机器学习中，机器在表示和获取方面存在严重的不足，所以很难像人一样进行语句的歧义消除。句法分析是一个极为复杂的任务，侯选树的个数会随着句子增多呈现指数级别的增长，搜索空间巨大。因此，必须要有合适的解码器，才能够做到在规定的时间

2022-06-06 17:31:47 166

原创【NLP方向】【万时计划】16-22

包括分词、词性标注、命名实体识别和词义消歧。使用词性标注便于判定每个词的语法范畴。词义标注、词义消歧主要解决多语境下的词义问题，因为在多语境下一个词可能会拥有很多含义，但在固定情境下意思往往是确定的。在中文情境下词法分析是最核心的一部分，只有做好分词工作，剩下的工作才能顺利进行。词法分析的实现主要通过基于规则、基于统计、基于机器学习的方法。lexical analysis是计算及科学中将字符序列转换为标记（token）序列的过程。进行词法分析的程序或者函数即为词法分析器简称lexer词法分析器一般以函数形式

2022-06-02 17:17:21 72

原创【NLP方向】【万时计划】7-15

python查询数据库内容对数据库进行插入对数据库进行修改对数据库进行删除在进行数据库操作时，我们需要进行不同的操作和修改不一致的内容，所以可以将数据库命令和修改的内容分别用变量来表示批量插入数据

2022-06-02 08:54:10 42

原创【NLP方向】【万时计划】0-7

【NLP】案件分级import db_default as dbimport timeimport cx_Oracleimport osimport numpy as npcacheimport pickleimport regex as reimport datetimeimport ahocorasickimport pymysqlfrom elasticsearch import Elasticsearchfrom elasticsearch import helpersim

2022-05-31 18:00:33 267

原创谱聚类（spectral clustering）原理总结

谱聚类（spectral clustering）原理总结谱聚类对数据分布的适应性更强，聚类效果优秀，同时聚类的计算量小且实现起来不复杂。引用文章链接：https://blog.csdn.net/yc_1993/article/details/52997074等周长问题：具体为如何在给定长度的线条下围出一个最大的面积，也可理解为，在给定面积下如何使用更短的线条，而这，也正是谱图聚类想法的端倪，如何在给定一张图，拿出“更短”的边来将其“更好”地切分。而这个“更短”的边，正是对应了spectral clu

2022-05-19 19:12:34 259

原创基于差分进化改进蚁群算法求解MDCVRP

蚁群算法求解MDCVRP摘要配送车辆的路径问题（Vehicle Routing Problem，VRP）是研究物流配送的关键，VRP 一直是物流研究领域中的一个具有重要理论意义和现实意义的问题［1-2］。因此，在物流保障过程中，需要制定合理有效的配送路径，选择省时省力的方法，在完成保障任务的前提下，尽最大努力满足客户对配送的需求。配送车辆的路径问题（Vehicle Routing Problem，VRP）是 Dantzig 和 Ramser ［3］在 1959 年提出来的。所谓 VRP，一般指的是：调

2022-05-01 18:40:42 469

m0_61968929的博客