
NLP
NLP (Natural Language Processing) 是人工智能(AI)的一个子领域。自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。
一个处女座的程序猿
人工智能硕博生,拥有十多项发明专利(6项)和软件著作权(9项),多个国家级证书(2个国三级、3个国四级),先后获得国内外“人工智能算法”竞赛(包括国家级、省市级等,一等奖5项、二等奖4项、三等奖2项)相关证书十多个,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。正在撰写《人工智算法最新实战》一书,目前已37万字。
展开
-
NLP:Transformer的架构详解之详细攻略(持续更新)
NLP:Transformer的架构详解之详细攻略Transformer的架构详解图1 Transformer模型结构Transformer 模型结构如图1所示,模型由6个编码器(Encoder)和6个解码器(Decoder)组成,输入(Inputs)和输出(Outputs)通过同一个训练好的词嵌入层(Word Embedding)将输入字符转换为维度为d的向量。和大多数seq2seq模型一样,transformer的结构也是由encoder和decoder组成。Encoder.原创 2022-02-28 00:00:54 · 2927 阅读 · 1 评论 -
NLP:Transformer的简介(优缺点)、架构详解之详细攻略
NLP:Transformer的简介(优缺点)、架构详解之详细攻略目录Transformer的简介(优缺点)、架构详解之详细攻略1、Transformer的简介(1)、Transforme的四4个优点和2个缺点2、Transformer 结构—纯用attention搭建的模型→计算速度更快Transformer的简介(优缺点)、架构详解之详细攻略1、Transformer的简介自 2017 年 Transformer 技术出现以来,便在 NLP、.原创 2022-02-27 23:52:00 · 2277 阅读 · 1 评论 -
NLP:自然语言处理技术近十年发展技术更迭的简介、案例之详细攻略(持续更新)
NLP:自然语言处理技术近十年发展技术更迭的简介、案例之详细攻略(持续更新)目录自然语言处理技术近十年发展技术更迭的简介、案例1、文档→篇章→段落→句子→词语→数值化表达1.1、Bool模型—求解文本相似度1.2、VSM向量空间模型—TF*IDF1.3、语言模型(词语组合是不是人话)—深度学习时代2、传统有监督模型的没落3、无监督模型的兴起3.1、基于词嵌入的预训练方法NNLM→Word2Vec→GloVe3.2、基于语言模型的预训练方法ELMo→Transf原创 2022-02-27 23:38:46 · 2105 阅读 · 0 评论 -
Paper:《Pre-Trained Models: Past, Present and Future大规模预训练模型的发展历史、最新现状和未来发展三个方向》翻译与解读
Paper:《Pre-Trained Models: Past, Present and Future大规模预训练模型的发展历史、最新现状和未来发展三个方向》翻译与解读目录Paper:《Pre-Trained Models: Past, Present and Future大规模预训练模型的发展历史、最新现状和未来发展三个方向》翻译与解读Abstract1 Introduction简介2 Background背景2.1 Transfer Learning and Supervis原创 2021-12-12 21:46:33 · 2002 阅读 · 0 评论 -
NLP:GLUE和SuperGLUE基准的简介、任务分类、使用方法之详细攻略
NLP:GLUE和SuperGLUE基准的简介、任务分类、使用方法之详细攻略目录GLUE和SuperGLUE基准的简介GLUE和SuperGLUE基准的具体任务GLUE taskSuperGLUE taskGLUE和SuperGLUE基准的简介GLUE 全称是通用语言理解评估(General Language Understanding Evaluation),基于已有的 9 种英文语言理解任务,涵盖多种数据集大小、文本类型和难度。终极目标..原创 2022-02-10 21:46:23 · 1702 阅读 · 1 评论 -
AI:大力出奇迹?Bigger is better?AI下一代浪潮?—人工智能的大语言模型(LLMs)的简介、发展以及未来趋势
AI:大力出奇迹?Bigger is better?AI下一代浪潮?—人工智能的大语言模型(LLMs)的简介、发展以及未来趋势目录人工智能的大语言模型(LLMs)—AI下一代浪潮?Bigger is better?大力出奇迹?2017年以来,大规模语言模型发展史单体模型VS混合模型大模型的意义大模型的局限性大模型的四个障碍未来趋势人工智能的大语言模型(LLMs)—AI下一代浪潮?Bigger is better?大力出奇迹? 大型语言模型(LLMs原创 2022-02-09 22:37:26 · 11058 阅读 · 0 评论 -
Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读
Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模态机器学习:综述与分类》翻译与解读目录《Multimodal Machine Learning: A Survey and Taxonomy》翻译与解读Abstract1 INTRODUCTION2 Applications: a historical perspective应用:历史视角3 Multimodal Representations多模态表示3原创 2018-09-27 09:02:13 · 10373 阅读 · 0 评论 -
NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略
NLP之PLUG:阿里达摩院发布最大中文预训练语言模型PLUG的简介、架构组成、模型训练、使用方法之详细攻略目录PLUG的简介PLUG的得分PLUG的特点PLUG的架构组成PLUG的模型训练PLUG的使用方法1、demo测试PLUG的简介 2021年4月19日,阿里达摩院发布了 270 亿参数、1TB + 训练数据、全球最大中文预训练语言模型 PLUG,并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录。阿里达摩院发布的中原创 2021-04-25 23:19:09 · 2762 阅读 · 0 评论 -
Paper:《ELMO:Deep contextualized word representations》翻译与解读
Paper:《ELMO:Deep contextualized word representations》翻译与解读目录《ELMO:Deep contextualized word representations》翻译与解读Abstract1 Introduction2 Related work3 ELMo: Embeddings from Language Models3.1 Bidirectional language models3.2 ELMo3.3 Usin原创 2019-01-19 11:25:15 · 9117 阅读 · 0 评论 -
NLP:对字符串按照一个、多个自定义分隔符进行分割、将列表转为字符串同时自定义连接符
NLP:对字符串按照一个、多个自定义分隔符进行分割、将列表转为字符串同时自定义连接符目录对字符串按照一个、多个自定义分隔符进行分割、将列表转为字符串同时自定义连接符输出结果实现代码对字符串按照一个、多个自定义分隔符进行分割、将列表转为字符串同时自定义连接符输出结果['你好', '我是', '一个处女座的程序猿', '请问', '你是谁?']你好,我是,一个处女座的程序猿,请问,你是谁?你好|我是|一个处女座的程序猿|请问|你是谁?实现代码# 1、对字符串按照多个自定义符原创 2021-03-20 00:15:38 · 1463 阅读 · 1 评论 -
NLP:以周杰伦的《Mojito》歌词为例字符串切分之清除一段由列表组成的字符串文本中的所有杂乱符号
NLP:以周杰伦的《Mojito》歌词为例字符串切分之清除一段由列表组成的字符串文本中的所有杂乱符号目录以周杰伦的《Mojito》歌词为例字符串切分之清除一段由列表组成的字符串文本中的所有杂乱符号输出结果实现代码以周杰伦的《Mojito》歌词为例字符串切分之清除一段由列表组成的字符串文本中的所有杂乱符号输出结果麻烦给我的爱人来一杯Mojito,我喜欢阅读,她微醺时的眼眸,而我的咖啡,糖不用太多,这世界已经因为,她甜得过头,没有...原创 2021-03-19 23:41:21 · 3731 阅读 · 2 评论 -
DL之LSTM:基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(基于keras)对word实现预测
DL之LSTM:基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(基于keras)对word实现预测目录基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(基于keras)对word实现预测设计思路输出结果核心代码基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(基于keras)对word实现预测设计思路更新……输出结果rawtext_B...原创 2020-12-24 23:08:43 · 2079 阅读 · 2 评论 -
DL之LSTM:基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(层加深,基于keras)对单个character字符预测
DL之LSTM:基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(层加深,基于keras)对单个character字符预测目录基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(层加深,基于keras)对单个character字符预测设计思路输出结果核心代码基于《wonderland爱丽丝梦游仙境记》小说数据集利用LSTM算法(层加深,基于keras)对单个character字符预测设计思路数据集下...原创 2020-12-23 23:53:46 · 1972 阅读 · 0 评论 -
ML之NB:基于news新闻文本数据集利用纯统计法、kNN、朴素贝叶斯(高斯/多元伯努利/多项式)、线性判别分析LDA、感知器等算法实现文本分类预测
ML之NB:基于news新闻文本数据集利用纯统计法、kNN、朴素贝叶斯(高斯/多元伯努利/多项式)、线性判别分析LDA、感知器等算法实现文本分类预测目录基于news新闻文本数据集利用纯统计法、kNN、朴素贝叶斯(高斯/多元伯努利/多项式)、线性判别分析LDA、感知器等算法实现文本分类预测设计思路输出结果核心代码基于news新闻文本数据集利用纯统计法、kNN、朴素贝叶斯(高斯/多元伯努利/多项式)、线性判别分析LDA、感知器等算法实现文本分类预测...原创 2020-12-22 20:12:13 · 2374 阅读 · 2 评论 -
AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)
AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)目录NLP是什么?1、NLP前置技术解析2、python中NLP技术相关库3、NLP案例实践3.1、机器翻译3.2、语音识别(Automatic Speech Recognition)3.3、中文分词3.4、词件标注与命名实体识别3.5、关键词提取算法3.6、句法分析3.7、文本向量化3.8、文本分类3.9、情感分析技术3.10、S原创 2020-12-06 15:22:43 · 6629 阅读 · 6 评论 -
Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略
Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略目录fetch_20newsgroups(20类新闻文本)数据集的简介1、数据集信息2、数据集标签20类别3、数据集前三篇文章fetch_20newsgroups(20类新闻文本)数据集的安装fetch_20newsgroups(20类新闻文本)数据集的使用方法fetch_20newsgroups(20类新闻文本)数据集的简介 ...原创 2020-08-28 20:05:18 · 8038 阅读 · 1 评论 -
Python:利用collections库实现统计单个字或单个字母的频率统计并进行降序输出、统计一个列表内重复元素并以字典形式输出
Python:利用collections库实现统计单个字或单个字母的频率统计并进行降序输出、统计一个列表内重复元素,并以字典形式输出目录利用collections库实现统计单个字或单个字母的频率统计并进行降序输出输出结果实现代码利用collections库统计一个列表内重复元素,并以字典形式输出利用collections库实现统计单个字或单个字母的频率统计并进行降序输出输出结果实现代码#Python:利用collections库实现统计单个字原创 2020-08-10 18:55:01 · 2296 阅读 · 0 评论 -
Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略
Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略目录jieba简介jieba安装jieba使用方法jieba简介应该算得上是分词领域的佼佼者,想要使用python做文本分析,分词是必不可少的一个环节。(1)支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。...原创 2018-03-14 20:24:14 · 14905 阅读 · 0 评论 -
NLP:NLP领域没有最强,只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略
NLP:GPT-3的简介、安装、使用方法之详细攻略目录GPT-3的简介关于GPT-3 的影响关于GPT-3 的评价关于GPT-3 的开源——为什么 OpenAI 决定发布 API,而不是开源整个模型?GPT-3的安装GPT-3的使用方法1、GPT-3的官方demo—原生能力,强到爆炸(1)、OpenAI 开发了一款浏览器搜索插件GPT-3的简介GPT-3 是著名人工智能科研公司 OpenAI 开发的文字生成 (text gene...原创 2020-08-09 18:23:41 · 16500 阅读 · 3 评论 -
NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介、发展历史、案例应用之详细攻略
NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介、发展历史、案例应用之详细攻略目录语音识别技术(Automatic Speech Recognition)的简介1、ASR实现的原理—模式匹配法2、ASR技术面临的五大问题语音识别技术(Automatic Speech Recognition)的发展历史语音识别技术(Automatic Speech Recognition)的案例应用语音识别技术(Automatic原创 2018-03-30 22:14:47 · 12643 阅读 · 0 评论 -
NLP:自然语言处理技术的简介、发展历史、案例应用之详细攻略
NLP:自然语言处理技术的简介、发展、案例应用之详细攻略目录自然语言处理技术的简介1、NLP技术的意义2、NLP的两个方向——自然语言理解和自然语言生成自然语言处理技术的发展自然语言处理技术的案例应用自然语言处理技术的简介 自然语言处理(Natural Language Processing,NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与原创 2018-01-22 16:19:16 · 23472 阅读 · 0 评论 -
pyaudio:基于pyaudio利用Python编程从电脑端录制音频保存到指定文件夹+将录音上传服务器+录音进行识别并转为文本保存
pyaudio:基于pyaudio利用Python编程从电脑端录制音频保存到指定文件夹+将录音上传服务器+录音进行识别并转为文本保存目录输出结果代码实现输出结果代码实现# -*- coding: utf-8 -*-#pyaudio:利用pyaudio从电脑端录制音频保存到指定文件夹+将录音上传服务器+录音进行识别并转...原创 2018-05-29 15:23:25 · 14501 阅读 · 5 评论 -
NLP之ASR:基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略
ASR:基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略目录利用python进行语音生成利用python进行语音识别利用python进行语音生成T1、调用win系统自带程序将文字转为语音读出T2、利用python的pyaudio库进行实时录制,生成wav文件T3、利用BAT、科大讯飞等的语音识别AP...原创 2018-05-29 11:30:25 · 15003 阅读 · 2 评论 -
py之textgenrnn:Python利用textgenrnn库实现训练文本生成网络
py之textgenrnn:Python利用textgenrnn库实现训练文本生成网络目录输出结果实现代码输出结果实现代码#textgenrnn:利用textgenrnn实现训练文本生成网络——Jason niufrom textgenrnn import textgenrnntextgen = textgenrnn(...原创 2018-05-06 22:00:38 · 10571 阅读 · 0 评论 -
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码
NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码目录全部代码相关文章NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 False: input_1False: block1_conv1False:原创 2019-11-23 21:34:33 · 19219 阅读 · 333 评论 -
LSTM:《Understanding LSTM Networks》的翻译并解读
LSTM:《Understanding LSTM Networks》的翻译并解读目录Understanding LSTM NetworksRecurrent Neural NetworksThe Problem of Long-Term DependenciesLSTM NetworksThe Core Idea Behind LSTMsStep-by...原创 2019-09-03 15:30:23 · 3426 阅读 · 0 评论 -
NLP:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文献
Paper:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文章The 2010s: Our Decade of Deep Learning / Outlook on the 2020sReferences Beyond Those in Reference[MIR...原创 2020-02-24 20:31:25 · 3749 阅读 · 1 评论 -
NLP:《NLP Year in Review 2019&NLP_2019_Highlights》2019年自然语言处理领域重要进展回顾及其解读
NLP:《NLP_2019_Highlights》2019年自然语言处理领域重要进展及其解读NLP_2019_Highlights2019 was an impressive year for the field of natural language processing (NLP). In this report, I want to highlight some of t...原创 2020-02-23 23:32:07 · 5314 阅读 · 0 评论 -
Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)
Dataset:数据集集合(NLP方向数据集)——常见的自然语言处理数据集大集合(建议收藏,持续更新)NLP数据集特点 文本相对容易收集和存储,但属性个数可能要比基因数据中的属性个数更多。对于一些自然语言处理问题,属性是词,每一行对应一篇文档。属性矩阵中的每一个元素表示词在文档中的出现次数。列的数目对应于文档的词汇量大小。根据预处理情况(如移除常见的词,如a、and 以及o...原创 2019-08-05 08:58:12 · 5178 阅读 · 0 评论 -
NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)
NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)目录输出结果设计思路核心代码输出结果1、测试文本今天一大早,两位男子在故宫抽烟对镜头炫耀的视频在网络上传播,引发网友愤怒。有人感到后怕,600年的故宫真要这两个人给点了,万死莫赎...原创 2019-07-14 23:03:02 · 7294 阅读 · 0 评论 -
NLP:基于snownlp库对文本实现提取文本关键词和文本摘要
NLP:基于snownlp库对文本实现提取文本关键词和文本摘要目录输出结果1、测试文本设计思路核心代码输出结果1、测试文本今天一大早,两位男子在故宫抽烟对镜头炫耀的视频在网络上传播,引发网友愤怒。有人感到后怕,600年的故宫真要这两个人给点了,万死莫赎。也有评论称,把无知当成炫耀的资本,丢人!视频中两位男子坐在...原创 2019-07-14 23:02:26 · 8377 阅读 · 1 评论 -
NLP:基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要
NLP:基于textrank4zh库对文本实现提取文本关键词、文本关键短语和文本摘要目录输出结果设计思路核心代码输出结果关键词:故宫0.030737773083470445镜头0.026154204788274925吸烟0.02464630557740873网友0.0223623041596296...原创 2019-07-13 21:57:46 · 6531 阅读 · 2 评论 -
NLP之NB&GBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva)、梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测)
NLP之NB&GBT:基于朴素贝叶斯(count/tfidf+网格搜索+4fCrva)、梯度提升树(w2c+网格搜索+4fCrva)算法对IMDB影评数据集进行文本情感分析(情感二分类预测)目录数据集一、利用两种不同NB算法处理标注影评数据集输出结果设计思路核心代码二、利用w2c+GB算法处理未标注影评数据集输出结果设计思路核心代码...原创 2019-03-11 23:00:39 · 10389 阅读 · 1 评论 -
NLP之词向量:利用word2vec对20类新闻文本数据集进行词向量训练、测试(某个单词的相关词汇)
NLP之词向量:利用word2vec对20类新闻文本数据集进行词向量训练、测试(某个单词的相关词汇)目录输出结果设计思路核心代码输出结果寻找训练文本中与morning最相关的10个词汇:[('afternoon', 0.8329864144325256), ('weekend', 0.7690818309783936), ('eveni...原创 2019-03-08 12:15:52 · 12796 阅读 · 0 评论 -
NLP之BoW&NLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库
NLP之BoW&NLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库目录输出结果实现代码输出结果[[0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0] [1 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 1]]BoW:输出句子中的每...原创 2019-03-07 16:43:27 · 9521 阅读 · 0 评论 -
ML之SVM:利用SVM算法(超参数组合进行单线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估
ML之SVM:利用SVM算法(超参数组合进行单线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估目录输出结果设计思路核心代码输出结果Fitting 3 folds for each of 12 candidates, totalling 36 fits[CV] svc__C=0.1, svc__gamma=0.01 ...原创 2019-03-06 22:36:48 · 8304 阅读 · 0 评论 -
ML之SVM:利用SVM算法(超参数组合进行多线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估
ML之SVM:利用SVM算法(超参数组合进行多线程网格搜索+3fCrVa)对20类新闻文本数据集进行分类预测、评估目录输出结果设计思路核心代码输出结果Fitting 3 folds for each of 12 candidates, totalling 36 fits[CV] svc__C=0.1, svc__gamma=0.01 ........原创 2019-03-06 22:37:01 · 8243 阅读 · 0 评论 -
ML之NB:利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测、评估
ML之NB:利用NB朴素贝叶斯算法(CountVectorizer/TfidfVectorizer+去除停用词)进行分类预测、评估目录输出结果设计思路核心代码输出结果设计思路核心代码class CountVectorizer Found at: sklearn.feature_extra...原创 2019-03-03 12:23:17 · 8934 阅读 · 0 评论 -
ML之NB:利用朴素贝叶斯NB算法(TfidfVectorizer+不去除停用词)对20类新闻文本数据集进行分类预测、评估
ML之NB:利用朴素贝叶斯NB算法(TfidfVectorizer+不去除停用词)对20类新闻文本数据集进行分类预测、评估目录输出结果设计思路核心代码输出结果设计思路核心代码class TfidfVectorizer Found at: sklearn.feature_extracti...原创 2019-03-03 11:50:48 · 5511 阅读 · 0 评论 -
NLP:利用DictVectorizer对使用字典存储的数据进行特征抽取与向量化
NLP:利用DictVectorizer对使用字典存储的数据进行特征抽取与向量化目录输出结果实现代码输出结果实现代码#定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)from sklearn.feature_extraction import DictVectorizermeasurements = [{'c...原创 2019-03-02 22:57:15 · 7645 阅读 · 0 评论