
自然语言
javastart
专注于大数据 AI
展开
-
文字转语音软件《AI配音专家》完全开源
看见网上文字转语音这类软件大部分是收费的,免费的也有,但是效果不好!自学electron跨平台桌面开发有一段时间了,练手作品,给大家分享一下吧!采用的是阿里语音合成引擎,效果非常好,语言种类齐全!软件里面的key是申请免费的,官网文档上面说是最多同时两个进程,所以多个人同时转换可能会失败吧,你们自己测试!软件代码是完全开源的,代码在GitHub上面,会前端的可以自己打包,最后别忘记点个starGitHub地址:https://github.com/bawangxx/XZVoice...转载 2022-05-04 17:39:40 · 61 阅读 · 0 评论 -
基于CPM的中文作文生成模型,引经据典、修辞手法,信手拈来
在本文中,笔者将介绍CPM(Chinese Pretrained Models)模型,这是一个中文预训练生成模型,并且分享笔者训练的一个基于CPM的中文作文生成模型,包括模型权重、笔者爬取的26万篇中文作文语料,也将对模型和训练细节进行介绍。首先展示一下模型生成效果,下图中的样例均为模型生成,且未经过人为修改。可以看到模型生成的作文总体上比较切题,也比较通顺,还能引经据典,使用修辞手法。项目地址:https://github.com/yangjianxin1/CPM论文标题:转载 2022-05-01 17:19:36 · 105 阅读 · 0 评论 -
【技术分享】BERT系列(三)-- BERT在阅读理解与问答上应用
【技术分享】BERT系列(三)-- BERT在阅读理解与问答上应用2021-12-20阅读17.4K0本文原作者:梁源,经授权后发布。机器阅读理解和问答是自然语言处理领域的一个火热主题。该任务旨在让机器像人类一样阅读理解。前面两篇文章对BERT的官方源码以及在序列标注上的应用进行了介绍,本篇文章将介绍如何利用BERT来解决阅读理解与问答问题。1. 阅读理解与问答简介机器阅读理解与问答主要涉及到深度学习、自然语言处理和信息检索。机器阅读理解具有很高的研究价值和多样的落地场景。它能够让计算.转载 2022-02-08 16:50:16 · 126 阅读 · 0 评论 -
Huggingface-NLP笔记7:使用Trainer API来微调模型
「Huggingface NLP笔记系列-第7集」最近跟着Huggingface上的NLP tutorial走了一遍,惊叹居然有如此好的讲解Transformers系列的NLP教程,于是决定记录一下学习的过程,分享我的笔记,可以算是官方教程的精简+注解版。但最推荐的,还是直接跟着官方教程来一遍,真是一种享受。官方教程网址:https://huggingface.co/course/chapter1 本期内容对应网址:https://huggingface.co/course/chapter3...转载 2022-02-06 21:21:08 · 564 阅读 · 0 评论 -
Longformer中文长文本摘要生成
1 Longformer之前做了BART中文摘要生成,但是因为项目需求是中文长文本摘要生成,因此在此采用Longformer完成中文摘要生成(实际用的是LED,Longformer基础上添加了解码器),11G显存长度可以到8K,非常友好。短文本上虽然比不上BART,不过这并不重要。1.1 Longformer结构LED结构与BART类似,只不过多了global attention,因为LED没有中文预训练模型,但是我们有BART呀,这也给出了BART权重转到LED的脚本,因此这次我们就采用BA.转载 2022-02-06 13:16:28 · 392 阅读 · 0 评论 -
5个简单的步骤使用Pytorch进行文本摘要总结
介绍文本摘要是自然语言处理(NLP)的一项任务,其目的是生成源文本的简明摘要。不像摘录摘要,摘要不仅仅简单地从源文本复制重要的短语,还要提出新的相关短语,这可以被视为释义。摘要在不同的领域产生了大量的应用,从书籍和文献,科学和研发,金融研究和法律文件分析。到目前为止,对抽象摘要最有效的方法是在摘要数据集上使用经过微调的transformer模型。在本文中,我们将演示如何在几个简单步骤中使用功能强大的模型轻松地总结文本。我们将要使用的模型已经经过了预先训练,所以不需要额外的训练:)让我们开始吧!.转载 2022-02-05 13:56:28 · 92 阅读 · 0 评论 -
机器如何生成文本?
机器如何生成文本? - 博客 - 编程圈转载 2022-02-05 13:23:30 · 48 阅读 · 0 评论 -
金融NLP需求落地实践总结——使用T5-Pegasus做一句话摘要
目录收起T5基本原理及实现细节relative position biaslayer normalization的改动参数初始化以及dense layer中的bias去除T5.1.1优化了哪些内容GEGLU替换ReluT5-PEGASUS基本原理及tf-serving部署tf-serving部署keras-model转tf-serving-pb格式使用tf-serving部署T5-Pegasus的encoder和decoder高效GRPC调用tf...转载 2022-02-05 11:55:27 · 184 阅读 · 0 评论 -
NLP自然语言处理学习(六)Beam Search
文章目录前言一、Beam Search2 Beam Search的实现2.1数据结构-堆2.2 使用堆来实现Beam Search2.3 模型的优化方法2.3.1 使用梯度裁剪其他优化方法前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、Beam Search在进行模型评估的过程中,每次我们选择概率最大的..转载 2022-02-03 20:24:48 · 111 阅读 · 0 评论 -
T5 PEGASUS:开源一个中文生成式预训练模型-摘要生成
T5 PEGASUS:开源一个中文生成式预训练模型转载 2022-02-03 17:46:57 · 374 阅读 · 0 评论 -
[竞赛01]2021CCF BDCI新闻摘要自动生成Baseline-T5模型
[竞赛01]2021CCF BDCI新闻摘要自动生成Baseline - 爱码帮™分享编程知识和开发经验「这是我参与11月更文挑战的第4天,活动详情查看:2021最后一次更文挑战」本文提供竞赛的Baseline,采用hugging face的预训练模型配合pipeline方法快速得到文本摘要,经过测试\Rouge_L分数在0.22158458,第8名比赛信息大赛链接:新闻摘要自动生成 Competitions - DataFountain赛题介绍赛题背景随着互联网、社...转载 2022-01-30 22:54:23 · 153 阅读 · 0 评论 -
法研杯参赛总结:“抽取-生成”式长文本摘要
“法研杯”[1]算是近年来比较知名的 NLP 赛事之一,今年是第三届,包含四个赛道,其中有一个“司法摘要”赛道引起了我们的兴趣。经过了解,这是面向法律领域裁判文书的长文本摘要生成,这应该是国内第一个公开的长文本生成任务和数据集。过去一年多以来,我们在文本生成方面都有持续的投入和探索,所以决定选择该赛道作为检验我们研究成果的“试金石”。很幸运,我们最终以微弱的优势获得了该赛道的第一名。在此,我们对我们的比赛模型做一个总结和分享。▲ 比赛榜单截图在该比赛中,我们跳出了纯粹炼丹的过程,通过新...转载 2022-01-28 23:02:37 · 239 阅读 · 0 评论 -
NLP文档挖宝(2)——通过Huggingface Transformers 分享与上传自己的预训练模型
最近团队完成了一个面向古文语料的预训练模型(SikuBERT),基于四库全书进行的训练,效果害挺好,于是准备拥抱开源,上传至最大的预训练模型hub——huggingface。在整个上传过程中,看了一些很早之前翻译成中文的上传手册,他们大多使用内置工具+upload方法进行上传,但是笔者按照步骤尝试之后并没有成功,所以直接查看了官方的文档,尝试了git的方法,最后成功上传。在这来记录一下上传的方法,以便帮助遇到相似问题的朋友快速上传。1 准备工作准备好训练好的预训练模型sikube.转载 2022-01-23 10:39:57 · 94 阅读 · 0 评论 -
中文纠错(Chinese Spelling Correct)最新技术方案总结
中文纠错(Chinese Spelling Correct)最新技术方案总结2021-03-20 15:58:01阅读:654来源:互联网标签:bertendChinese模型字音Spelling纠错Correct向量【腾讯云】云产品限时秒杀,2核4G 8M 80GB SSD仅74元/年,222元3年目录1 纠错基础知识 1.1 常见错误类型 1.2 纠错组成模块 2 深度学习技术 2.1 FASPell(爱奇艺) 2.1.1...转载 2022-01-15 16:26:19 · 165 阅读 · 0 评论 -
tableqa的Python项目详细描述
表QA在表格数据上查询自然语言的工具,如csv,excel表格等功能支持从多个CSV进行检测 支持FuzzyString实现。i、 e、查询中不完整的csv值可以自动检测并填充到查询中。在 开放域名,无需培训。在 为自定义体验添加手动架构 在未提供架构的情况下自动生成架构 数据可视化配置:通过PIP安装:pip install tableqa从源安装:git clone https://github.com/abhijithneilabraham/tableQ..原创 2022-01-15 11:19:32 · 371 阅读 · 0 评论 -
BiLSTM / BiRNN / BiLSTM-CRF / Bert-BiLSTM-CRF 全网最强大厂面试级深度的知识点整理
https://blog.csdn.net/qq_22795223/article/details/105894751转载 2022-01-08 18:15:38 · 78 阅读 · 0 评论 -
kashgari的Python项目-NLP框架(实体识别(NER)、词性标注(PoS)和文本分类任务)
简单而强大的NLP框架,在5分钟内为命名实体识别(NER)、词性标注(PoS)和文本分类任务构建最新模型喀什是:人性化。喀什噶尔的代码是直截了当的,有很好的文档和测试,这使得它非常容易理解和修改。 功能强大且简单。喀什允许您将最先进的自然语言处理(nlp)模型应用于文本,如命名实体识别(ner)、词性标注(pos)和分类。 keras基础。Kashgare直接构建在Keras上,使您可以轻松地训练模型,并使用不同的嵌入和模型结构尝试新方法。 易于微调。Kashgare构建了预先训练的Ber..原创 2021-12-29 19:15:50 · 1118 阅读 · 1 评论 -
kashgari 实践bert+BiLstm+crf -ner
网上大部分都是使用ChinaPeoplesDailyNerCorpus语料做的,真正应用到自已的语料和需求中还是有一些坑,这里整理记录一下首先明确语料需要处理成什么格式,贴图理解一下这里面需要搞清楚几点,我们的语料最小粒度是字级别的,然后每句话结束会有一个空行(当年踩过的坑),后面的标记简单科普一下,专业人士直接跳过,大O表示非实体,B-ORD表示机构开头第一个字,I-ORD表示中间,有些预料可能会有结束标记,这里只使用了开头和中间,当然你可能还需要识别人名(B-PER, I-PER),地名(B-LO转载 2021-12-17 18:55:20 · 178 阅读 · 0 评论 -
自然语言处理基于预训练模型的方法 代码地址
本书配套案例代码地址https://github.com/HIT-SCIR/plm-nlp-code本书课件及答案请见百度网盘:https://pan.baidu.com/s/1y6hJhUpya_5_8Zk6iu7ZVg提取码:bvbk原创 2021-12-04 11:16:29 · 967 阅读 · 1 评论 -
transformers 部署
由于已经有conda和pycharm ,而且感觉python3.6比较老,因此打算安装python3.10 ,后来发现好像不支持tokenizers,又重新安装python3.9.1、conda create -n env_name python=3.9安装过程出现如下:appears to be corrupted. The path 'venvlauncher.exe'处理方式,清理缓存即可conda clean --packages --tarballs2、安装transfor原创 2021-11-06 15:01:33 · 526 阅读 · 0 评论 -
国内HuggingFace,预训练模型镜像使用
Hugging Face Transformers是自然语言处理领域的重要开源项目,提供了基于通用架构(如 BERT,GPT-2,RoBERTa)的数千个预训练模型,并提供了 PyTorch 和 TensorFlow 的良好互操作性。我们镜像了 Hugging Face Model Hub,为国内用户下载预训练模型数据提供便利。使用方法注意:transformers > 3.1.0的版本支持下面的mirror选项。只需在from_pretrained函数调用中添加mi...转载 2021-11-04 18:42:02 · 297 阅读 · 1 评论 -
huggingface.co-transformer-task api 文档
Summary of the tasks — transformers 4.12.2 documentation原创 2021-10-31 11:54:52 · 92 阅读 · 0 评论 -
BERT源码详解(一)——HuggingFace Transformers源码解
这一次不介绍新文章,只是记录一下对HuggingFace开源的Transformers项目代码的理解。不算什么新鲜的东西,权当个人的备忘录,把了解过和BERT相关的东西都记录下来。本文首发于知乎专栏机器学不动了,禁止任何未经本人@Riroaki授权的转载。众所周知,BERT模型自2018年问世起就各种屠榜,开启了NLP领域预训练+微调的范式。到现在,BERT的相关衍生模型层出不穷(XL-Net、RoBERTa、ALBERT、ELECTRA、ERNIE等),要理解它们可以先从BERT这个始祖...转载 2021-10-31 11:51:53 · 838 阅读 · 0 评论 -
【HugBert01】Huggingface Transformers,一个顶级自然语言处理框架
1. HugBert系列最近计划写一个HugBert系列。这个系列主要关注NLP中以BERT/Transformer为代表的预训练语言模型技术,以及由huggingface所维护的一系列开源库的应用和实现。HugBert = Huggingface {transformers, tokeninizers, distilbert, conversational AI...} + Bert {PTMs, BERT, ALBERT, RoBERTa, ...}这篇【HugBert01】算是先开个头..转载 2021-10-27 18:53:02 · 179 阅读 · 0 评论 -
nlp 命名实体识别-中文名识别
目录命名实体识别 基于CRF的命名实体识别方法 SVM和最大熵相结合的中文机构名自动识别 中文名识别 盘古分词中的算法 预处理 消除歧义 总结 基于词典的实体识别 jcseg中文姓名识别算法 总结 HENU汉语分词系统中的中文人名识别算法 同姓异名对的冲突处理 局部回溯分词 基于支持向量机的中国人名的自动识别 基于可信度模型的中文人名识别研究 命名实体识别命名实体识别是自然语言处理中的一项基础性工作,需要把文转载 2021-10-18 18:33:50 · 366 阅读 · 0 评论 -
基于AIML的Python聊天机器人搭建
AIML简介AIML全名为Artificial Intelligence Markup Language(人工智能标记语言),是一种创建自然语言软件代理的XML语言,是由RichardS. Wallace 博士和Alicebot开源软件组织于1995-2000年间发明创造的。AIML是一种为了匹配模式和确定响应而进行规则定义的 XML 格式。AIML的设计目标如下: AIML应当为大众所易学易会。 AIML应当使最小的概念得以编码使之基于I.C.E支持一种刺激-响应学科系统组件。 AIML..转载 2021-10-17 16:23:06 · 131 阅读 · 0 评论 -
自然语言处理4-1:语言模型之Noisy Channel Model
Noisy Channel Model其实就是指的下面这个公式:P(text|source)=P(source|text)P(text)P(source)P(text|source)=P(source|text)P(text)P(source)因为P(source)是一个固定的值,所以又可以写成:P(text|source)∝P(source|text)P(text)P(text|source)∝P(source|text)P(text)在上式中,source是一个信号源,tex..原创 2021-10-04 15:25:16 · 170 阅读 · 1 评论 -
基于spaCy的命名实体识别
----以“大屠杀”领域命名实体识别研究为例作者: Dr. W.J.B. MattinglyPostdoctoral Fellow at the Smithsonian Institution's Data Science Lab and United States Holocaust Memorial Museum2021年1月引用:Mattingly, William. Introduction to Named Entity Recognition, 2020. ner.pytho..转载 2021-10-04 14:33:39 · 287 阅读 · 1 评论 -
Pytorch——GPT-2 预训练模型及文本生成
介绍在本次将学习另一个有着优秀表现的预训练模型:GPT-2 模型,以及使用它进行文本生成任务实践。知识点GPT-2 的核心思想 GPT-2 模型结构详解 GPT-2 进行文本生成OpenAI 在论文Improving Language Understanding by Generative Pre-Training中提出了 GPT 模型。GPT 模型是由单向 Transformer 的解码器构建的模型,OpenAI 团队在一个非常大的书籍数据集the Toronto Book C...转载 2021-08-31 19:14:47 · 1115 阅读 · 0 评论 -
《自然语言处理高阶研修》-nlp
我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习。其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学习资源。如果一门课程帮助你清晰地梳理知识体系,而且把有深度的知识点脉络讲清楚,这就是节省最大的成本。为了迎合大家学习的需求,我们这次重磅推出了《自然语言处理高阶研修》。首先,全网不可能找得到另外一门系统性的训练营具备如此的深度和广度,这里包括国外的课程,所以从内容的角度来讲是非常稀缺的内容。..原创 2021-08-29 18:22:59 · 150 阅读 · 0 评论 -
Sentence-Transformer的使用及fine-tune教程
简述同时要求安装这个,过程遇到一些问题,也不清楚之间的关系,有很多依赖包,大包要由于非常慢导致超时,要单独下载,以为是huggingface的sentence-transformers,好像不是,以后再研究。Sentence-Transformer官方文档写的很详细,里面有各种你可能会用到的示例代码,并且都有比较详细的说明,如果有什么问题,应该先去看官方文档本文主要从两种情况来介绍如何使用Sentence-Transformer,一种是直接使用,另一种是在自己的数据集上fine-tune..转载 2021-08-25 19:08:48 · 943 阅读 · 0 评论 -
NLP - 基于 BERT 的中文命名实体识别(NER)
序列标注任务是中文自然语言处理(NLP)领域在句子层面中的主要任务,在给定的文本序列上预测序列中需要作出标注的标签。常见的子任务有命名实体识别(NER)、Chunk 提取以及词性标注(POS)等。BERT模型刷新了自然语言处理的 11 项记录,成为 NLP 行业的新标杆。既然 Google 开源这么好的模型架构和预训练的中文模型,那我们就使用它构建一个序列标注模型。PS: 最近我开源了一个极简文本分类和序列标注框架Kashgari,今天的教程将使用这个框架构建模型。如果想了解文本分类,可...转载 2021-08-22 17:07:06 · 622 阅读 · 0 评论 -
Pytorch——XLNet 预训练模型及命名实体识别
介绍在之前我们介绍和使用了 BERT 预训练模型和 GPT-2 预训练模型,分别进行了文本分类和文本生成次。我们将介绍 XLNet 预训练模型,并使用其进行命名实体识别次。知识点XLNet 在 BERT 和 GPT-2 上的改进 XLNet 模型结构 使用 XLNet 进行命名实体识别次谷歌的团队继 BERT 模型之后,在 2019 年中旬又提出了 XLNet 模型。XLNet 在多达 20 个任务上均取得了超越 BERT 的成绩,还在如问答系统、自然语言推理、情感分析、文本排序等任...转载 2021-08-20 19:15:39 · 664 阅读 · 0 评论 -
自然语言基础模型任务
BERT 预训练模型:文本分类和GPT-2 预训练模型:文本生成次XLNet 预训练模型:命名实体识别次原创 2021-08-20 18:54:46 · 46 阅读 · 0 评论 -
自然语言nlp 课程汇总
1、斯坦福cs224n斯坦福官网主页:斯坦福CS224N官网主页syllabus:CS224N Syllabus国内视频地址:斯坦福CS224N深度学习自然语言处理课程(一)课件:CS224N-1 SLIDESnote:CS224N-1 NOTE原创 2021-08-20 18:31:21 · 75 阅读 · 0 评论 -
Hugging Face 知识库
1、模型库汇总https://huggingface.co/models?pipeline_tag=summarization原创 2021-08-17 18:37:04 · 70 阅读 · 0 评论 -
Transformers 库常见的用例-huggingface | 三
本章介绍使用Transformers库时最常见的用例。可用的模型允许许多不同的配置,并且在用例中具有很强的通用性。这里介绍了最简单的方法,展示了诸如问答、序列分类、命名实体识别等任务的用法。这些示例利用Auto Model,这些类将根据给定的checkpoint实例化模型,并自动选择正确的模型体系结构。有关详细信息,请查看:AutoModel文档。请随意修改代码,使其更具体,并使其适应你的特定用例。为了使模型能够在任务上良好地执行,必须从与该任务对应的checkpoint加载模型。这些check..转载 2021-08-13 18:15:24 · 287 阅读 · 0 评论 -
bert 中文基于文本的问答系统
https://blog.csdn.net/frank_zhaojianbo/article/details/107829713转载 2021-08-05 19:27:17 · 531 阅读 · 0 评论 -
Sentence-BERT: 一种能快速计算句子相似度的孪生网络
一、背景介绍 BERT和RoBERTa在文本语义相似度等句子对的回归任务上,已经达到了SOTA的结果。但是,它们都需要把两个句子同时喂到网络中,这样会导致巨大的计算开销:从10000个句子中找出最相似的句子对,大概需要5000万(C100002=49,995,000)个推理计算,在V100GPU上耗时约65个小时。这种结构使得BERT不适合语义相似度搜索,同样也不适合无监督任务(例如:聚类)。 本文基于BERT网络做了修改,提出了Sentence-BERT(SBERT)网络结构,该网络结构利用孪转载 2021-08-01 14:29:03 · 332 阅读 · 1 评论 -
HuggingFace-transformers系列的介绍以及在下游任务中的使用--Bert系列在Pytorch上应用
内容介绍这篇博客主要面向对Bert系列在Pytorch上应用感兴趣的同学,将涵盖的主要内容是:Bert系列有关的论文,Huggingface的实现,以及如何在不同下游任务中使用预训练模型。看过这篇博客,你将了解:Transformers实现的介绍,不同的Tokenizer和Model如何使用。 如何利用HuggingFace的实现自定义你的模型,如果你想利用这个库实现自己的下游任务,而不想过多关注其实现细节的话,那么这篇文章将会成为很好的参考。所需的知识安装Huggface库(需要预..转载 2021-07-26 19:02:01 · 592 阅读 · 0 评论