NLP
jack_201316888
这个作者很懒,什么都没留下…
展开
-
slam+nlp 语音自主机器人--预研
https://www.zhihu.com/column/c_1084087088789569536原创 2020-12-15 09:59:07 · 177 阅读 · 0 评论 -
LSTM ,GRU等变体介绍
一、写在前面这个系列还有peephole,couple 等这部分内容应该算是近几年发展中最基础的部分了,但是发现自己忘得差不多了,很多细节记得不是很清楚了,故写这篇博客,也希望能够用更简单清晰的思路来把这部分内容说清楚,以此能够帮助更多的朋友,对于理解错误的地方也希望各位能够留下宝贵的意见,觉得不错别忘了点赞鼓励一下。有条件的童鞋可以看看这篇论文,详细的说明了RNN、LSTM、GRU的计算过程,个人认为如果是要走学术方向的朋友值得细读这篇论文,里面不仅仅涉及到循环神经网络的详细计算过程,而且还实验了转载 2020-12-15 09:50:42 · 1541 阅读 · 0 评论 -
NLP data clean
、知识点"""安装模块:bs4 nltk gensimnltk:处理英文 1、安装 2、nltk.download() 下载相应的模块英文数据处理: 1、去掉html标签 example = BeautifulSoup(df['review'][1000],'html.parser').get_text() 2、移除标点 example_letter = re.sub(r'[^a-zA-Z]',' ',example) 3、切分成词/to原创 2020-12-10 17:08:53 · 136 阅读 · 0 评论 -
NLP notebook
https://www.cnblogs.com/luckyplj/p/12760735.html原创 2020-09-01 17:50:50 · 91 阅读 · 0 评论 -
国内的自然语言处理(NLP)研究小组
https://zhuanlan.zhihu.com/p/145318968原创 2020-09-01 15:13:21 · 132 阅读 · 0 评论 -
NLP + KG resource
【人工智能头条导读】作者一年前整理了这份关于 NLP 与知识图谱的参考资源,涵盖内容与形式也是非常丰富,接下来人工智能头条还会继续努力,分享更多更好的新资源给大家,也期待能与大家多多交流,一起成长。NLP参考资源自然语言处理(Natural Language Processing)是深度学习的主要应用领域之一。▌教程CS224d: Deep Learning for Natural Language Processing http://cs224d.stanford.edu/ CS2.原创 2020-09-01 12:08:26 · 638 阅读 · 0 评论 -
自然语言处理NLP + 知识图谱
黄金搭档:自然语言处理NLP + 知识图谱金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而自然语言处理(NLP)与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。一般的金融科技公司只会集中在其中的某些业务方向,只要能深入掌握两到三种能力,就能具有相当的竞争力。在这些业务场景中,自然语言处理(NLP)和知识图谱技术往往需要共同应用,才能发挥出最大的效能。同时,一种核心能力可以在多个智能金融应用场景中得到应用,这些应用场景包括:智能投研转载 2020-09-01 11:36:56 · 6605 阅读 · 1 评论 -
KG-知识图谱
https://www.cnblogs.com/huangyc/p/10043749.html1. 通俗易懂解释知识图谱(Knowledge Graph) 完整机器学习实现代码GitHub欢迎转载,转载请注明出处https://www.cnblogs.com/huangyc/p/10043749.html欢迎沟通交流: 339408769@qq.com0. 目录1. 前言 2. 知识图谱定义 3. 数据类型和存储方式 4. 知识图谱的架构 4.1 逻辑架构 4.2 技术架转载 2020-09-01 09:15:38 · 1471 阅读 · 0 评论 -
什么是知识图谱
https://blog.csdn.net/blueorris/article/details/96020770本文参考了Mayank Kejriwal的新著《Domain-Specific Knowledge Graph Construction》(2019年) 最近几年,knowledge graph(KG)作为AI(人工智能)的一个主要领域活跃起来。图(graph)经常出现在AI的最新论文当中。由于大数据时代的到来,我们很需要让计算机高效地“理解”并分析这些数据。 ...转载 2020-08-31 11:58:06 · 218 阅读 · 0 评论 -
NLPer lists
http://www.360doc.com/content/19/0818/20/99071_855712532.shtml原创 2020-08-28 16:27:22 · 67 阅读 · 0 评论 -
Kaldi学习笔记(三)——运行thchs30(清华大学中文语料库)
Kaldi中文语音识别公共数据集一共有4个(据我所知),分别是:1.aishell: AI SHELL公司开源178小时中文语音语料及基本训练脚本,见kaldi-master/egs/aishell2.gale_mandarin: 中文新闻广播数据集(LDC2013S08, LDC2013S08)3.hkust: 中文电话数据集(LDC2005S15, LDC2005T32)4.thchs30: 清华大学30小时的数据集,可以在http://www.openslr.org/18/下载.转载 2020-08-21 19:00:58 · 1347 阅读 · 0 评论 -
语音识别工具Kaldi (二)
在上一篇blog中简单的介绍了Kaldi的安装方法有趣的开源软件:语音识别工具Kaldi (一)在这篇blog中继续Kaldi模型训练的步骤,介绍一下在模型训练之前的一些数据准备的工作。因为我也是正在学习语音识别和Kaldi,有些地方不一定说的很正确,如果发现错误,还请指正。在Kaldi源代码树中,有一个叫做egs的文件夹,在这个文件夹中保存着一些Kaldi在公共数据集上的训练步骤(shell脚本)以及测试的结果。其中,中文的语音识别公共数据集一共有三个,分别是gale_mandarin: 中文..转载 2020-08-21 18:19:10 · 504 阅读 · 0 评论 -
有趣的开源软件:语音识别工具Kaldi (一)
最新人工智能论文:http://paperreading.clubKaldi是一个非常强大的语音识别工具库,主要由Daniel Povey开发和维护。目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别的模型的训练和预测。其中DNN-HMM中的神经网络还可以由配置文件自定义,DNN、CNN、TDNN、LSTM以及Bidirectional-LSTM等神经网络结构均可支持。目前在Github上这个项目依旧非常活跃,可以在https://github.com/kaldi-asr/ka.转载 2020-08-21 18:06:36 · 562 阅读 · 0 评论 -
语音信号处理
文章目录语音信号处理 第一章 绪论 第二章 语音信号处理基础知识 语音和语言 **浊音的声带振动基本频率(fundamental frequency)称为基音频率。 浊音的基音频率(pitch):**??????????? 汉语语音学 汉语的声母和韵母 汉语音节的一般结构 汉语声母的结构 语音生成系统和语音感知系统 语音信号生成的数学模型 激励模型 声道模型 辐射模型 语音信号的特性分析转载 2020-08-18 16:27:44 · 572 阅读 · 0 评论 -
《语音信号处理》整理
reference《spoken language processing》1 语音基础 名词解释 pitch 音调 以HZ为单位基频又称音高能量又称音强说话的声音(声带震动)和其他声音相比,有独特的时域和频域模式。声带的震动产生基频(fundamental frequency),口腔共振(the pharyngeal and oral resonance cavities)等产生高频谐波 基频 就是声带的闭-开频率 声道模型...转载 2020-08-18 15:56:37 · 1492 阅读 · 0 评论 -
开源语音识别工具箱kaldi
Kaldi是一款基于C++编写的开源语音识别工具箱。这款工具既可以在Windows下编译也可以在Linux下编译。本次我是在虚拟机装上了Ubuntu 16.04.03,64位,可以联网。文档里面也说还是建议在Linux下使用Kaldi。一、下载下载直接利用git版本控制系统就可以了,打开终端,直接在你的实验目录下输入命令:git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk --origin golden不一会就从gi.原创 2020-08-18 14:34:57 · 425 阅读 · 0 评论 -
成精了-GPT3
https://baijiahao.baidu.com/s?id=1673629269283160681&wfr=spider&for=pc原创 2020-08-12 14:27:42 · 116 阅读 · 0 评论 -
Pytorch基础
一、Pytorch基础首先,第一步是导入pytorch的一系列包import torchimport torch.autograd as autograd #Autograd为Tensor所有操作提供自动求导方法import torch.nn as nnimport torch.nn.functional as Fimport torch.optim as optim1)Tensor张量a) 创建Tensors#tensorx = torch.Tensor([[1,2,原创 2020-08-12 14:20:38 · 145 阅读 · 0 评论 -
NLP flow
https://www.cnblogs.com/mantch/p/11385113.html原创 2020-08-12 12:58:23 · 118 阅读 · 0 评论 -
NL 学习资源
https://github.com/fighting41love/funNLP在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star,谢谢!长期不定时更新,欢迎watch和fork!涉及内容包括但不限于:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁转载 2020-07-27 17:50:47 · 4394 阅读 · 0 评论 -
GPT原理
https://blog.csdn.net/sinat_24330297/article/details/102501549OpenAI-GPT原理详解 本文参考 一、前言 二、基础知识 三、OpenAI GPT 3.1 OpenAI GPT 原理 3.2 OpenAI GPT模型结构 3.2.1 非监督预训练 3.2.2 监督微调fine-tuning...转载 2020-07-27 11:43:12 · 1447 阅读 · 0 评论 -
AI , NLP 学习路径 。
AI学习路径图示http://www.360doc.com/content/19/0515/20/3175779_835938534.shtmlNLP学习路径https://blog.csdn.net/asialee_bird/article/details/85702874原创 2020-07-27 10:43:56 · 79 阅读 · 0 评论 -
GPT Transformer Bert对比分析
首先,Transformer来自论文Attention Is All You Need,后面笔记很多参考文章The Illustrated Transformer,同时加了一些自己的理解。1.从上到下认识Transformer首先我们把Transformer看做一个黑盒,以机器翻译示例为例,Transformer是输入就是待翻译的句子,输出就是翻译后的句子。然后我们再一步一步打开这个潘多拉魔盒:看到没有,这是一个经典的Encoder-Decoder模型,只是Encode...转载 2020-07-27 10:16:19 · 1704 阅读 · 0 评论 -
GPT3简介
https://blog.csdn.net/xixiaoyaoww/article/details/1064358332018年10月推出的BERT一直有着划NLP时代的意义,然而还有一个让人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式坚持着,向更通用的终极目标进发。最初的GPT只是一个12层单向的Transformer,通过预训练+精调的方式进行训练,BERT一出来就被比下去了。之后2019年初的GPT-2提出了meta-learni转载 2020-07-27 10:08:56 · 5068 阅读 · 0 评论 -
BERT ,NLP
前面已经介绍了transformer,理解了transformer,那么理解bert就简单多了。对transformer不是很了解的可以跳转到https://blog.csdn.net/one_super_dreamer/article/details/105181690bert的核心代码解读在https://blog.csdn.net/one_super_dreamer/article/details/105344649,本文主要介绍训练实例。Bert简介BERT来自Google的论文Pre-t转载 2020-07-18 21:32:51 · 162 阅读 · 0 评论 -
NLP 中文文本分类-详细
https://blog.csdn.net/qq_20989105/article/details/89492442文件准备工作下载bert源代码 : https://github.com/google-research/bert下载bert的预训练模型:https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zipGoogle提供了多种预训练好的bert模型,有针对不同语言的和不同模型大小的。对于转载 2020-07-10 14:14:36 · 765 阅读 · 0 评论 -
系统学习NLP
https://blog.csdn.net/App_12062011/article/details/82943806转载 2020-07-09 13:07:38 · 100 阅读 · 0 评论 -
NLP研究内容简介
什么是自然语言处理?自然语言处理是研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。根据这个定义,自然语言处理要研究 “在人与人交际中以及人与计算机交际中的语言问题”,既要研究语言,又要研究计算机,因此,它是一门交转载 2020-07-09 12:07:22 · 799 阅读 · 0 评论 -
SLAM-ROS-NLP
https://zhuanlan.zhihu.com/c_1084087088789569536原创 2020-07-09 11:19:18 · 128 阅读 · 0 评论 -
NLPer 最流行的NLP技术
介绍“NLP’s ImageNet moment has arrived.”想象一下我们有能力构建支持谷歌翻译的自然语言处理(NLP)模型,并且在Python中仅需几行代码来完成,这听起来是不是让人非常兴奋。而现在我们就可以坐在自己的机器前实现这个了!借助于被HuggingFace称为PyTorch-Transformers目前最先进的NLP工具。https://github.com/huggingface/pytorch-transformers我们可以简单地用Python导入它并进行实转载 2020-06-29 15:13:55 · 448 阅读 · 0 评论 -
语音识别之kaldi
最近一直在折腾kaldi,在这个庞大的系统面前,自己是那么的微小。由于数据库的原因,我只能运行kaldi所给例子的一部分。下面就来说说最近的进展吧。第一个例子就是yesno这个例子。由于提供数据,而且数据比较小,可以非常容易的去实现这个例子。具体的可以见我之前的博客:语音识别工具箱之kaldi介绍。第二个例子是rm里面的s4。具体的步骤也很简单,首先运行./getdata.sh,然后运行run.sh。贴下最后的结果:exp/tri2a/decode/wer_1...转载 2020-06-29 09:01:53 · 251 阅读 · 0 评论 -
NLP Bert 文本分类
欢迎关注微信公众号:NewBeeNLP,获取更多干货资源。PS!!评论区很多同学想要发cnews的数据集,我实在没有那么多时间单发,所以就上传到了百度云,大家自取吧。微信公众号后台回复cnews即可获取。BERT模型也出来很久了,之前看了论文学习过它的大致模型(可以参考前些日子写的笔记NLP大杀器BERT模型解读),但是一直有杂七杂八的事拖着没有具体去实现过真实效果如何。今天就趁机来动手写一写实战,顺便复现一下之前的内容。这篇文章的内容还是以比较简单文本分类任务入手,数据集选取的是新浪新闻cnews,转载 2020-06-27 19:01:22 · 692 阅读 · 1 评论 -
NLP 之 word2vec原理
https://blog.csdn.net/yu5064/article/details/79601683本章是介绍Word2Vec的原理推导部分,后面还会有基于TensorFlow的Word2Vec代码实现讲解。一、什么是Word2Vec?2013年,Google团队发表了word2vec工具。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种高效训练的方法:负采样(negative sam转载 2020-06-17 14:03:28 · 416 阅读 · 0 评论 -
自然语言处理知识 总结
自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我自己总结了一份知识体系结构,不足之处,欢迎指正。内容来源主要参考黄志洪老师的自然语言处理课程。主要参考书为宗成庆老师的《统计自然语言处理》,虽然很多内容写的不清楚,但好像中文NLP书籍就这一本全一些,如果想看好的英文资料,可以到我的GitHub上下载: http://github.com/lovesoft5/ml 下面直接开始正文: 一、自然语言处理概述...转载 2020-06-02 18:58:19 · 985 阅读 · 0 评论 -
nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert
https://zhuanlan.zhihu.com/p/56382372?from=timelinenlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bertJayLou娄杰首发于公众号「高能AI」本文以QA形式对自然语言处理中的词向量进行总结:包含word2vec/glove/fastText/elmo/bert。2020年更新:NLP预训练模型的全面总结JayLou娄杰:史上最全!PTMs:NLP预训练模型的全面总结zhuan..转载 2020-05-26 19:06:17 · 1193 阅读 · 0 评论 -
各种词向量的原理和详细代码实战(word2vec,fasttext,glove,elmo,gpt,bert)
https://blog.csdn.net/laojie4124/article/details/102915141从word2vec-->fasttext-->glove的原理及实战 一、Word2Vec 什么是Word2Vec Word2vec比较one-hot优点 Word2Vec的两种训练方式 Word2Vec需要注意的几个关键点 Word2Vec的实现方式 Word2Vec的训...转载 2020-05-26 18:02:33 · 1692 阅读 · 0 评论 -
BERT 处理中文分类和相似度
https://blog.csdn.net/u012526436/article/details/84637834https://terrifyzhao.github.io/2018/11/29/使用BERT做中文文本相似度计算.html简介最近Google推出了NLP大杀器BERT,BERT(Transformer双向编码器表示)是Google AI语言研究人员最近发表的一篇论文。它通过在各种NLP任务中呈现最先进的结果,包括问答系统、自然语言推理等,引起了机器学习社区的轰动。本文不会去讲解转载 2020-05-23 16:43:22 · 2083 阅读 · 0 评论 -
BERT 处理中文文本任务
https://blog.csdn.net/qq_20989105/article/details/89492442 bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。关于Bert具体训练的...转载 2020-05-23 16:40:09 · 1916 阅读 · 0 评论 -
NLP Transformer 介绍
传送门:【NLP】Attention原理和源码解析自Attention机制提出后,加入attention的Seq2seq模型在各个任务上都有了提升,所以现在的seq2seq模型指的都是结合rnn和attention的模型,具体原理可以参考传送门的文章。之后google又提出了解决sequence to sequence问题的transformer模型,用全attention的结构代替了lstm,在翻译任务上取得了更好的成绩。本文主要介绍《Attention is all you need》这篇...转载 2020-05-22 17:38:05 · 292 阅读 · 0 评论 -
中文NLP工具介绍
https://blog.csdn.net/KnightTen/article/details/89138602中文 NLP 工具总结KnightTen 2019-04-09 11:00:44 3419 收藏 10展开文章目录 中文 NLP 工具总结 1. Jieba 分词 1.1 简介 1.2 模型原理 1.3 安装 1.4 使用 1.5 分词评测...转载 2020-05-22 08:45:36 · 1248 阅读 · 0 评论