![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
Mr_不想起床
努力工作,环游世界!
展开
-
中文文本时间抽取、时间转换及标准化
分享一个用于文本中的时间抽取、时间转换、时间标准化的实用工具。简介Time-Extractor的python3版本功能说明用于句子中时间词的抽取和转换, 主要基于Time_NLP做了部分优化效果如下:res = tn.parse(target=u'晚上8点到上午10点之间') # target为待分析语句,timeBase为基准时间默认是当前时间print("extract_result:", res)res = tn.parse(target=u'2020年二月二十八日下午四点三十分二十九原创 2020-12-26 13:54:08 · 1866 阅读 · 0 评论 -
自然语言处理数据集(NLP Datasets)
收集了一些中文自然语言处理数据集,在此分享出来。后续会在github中不定时持续更新,欢迎Star。任务型对话数据、文本分类、实体识别&词性标注、搜索匹配、推荐系统、百科数据、指代消歧、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台情感/观点/评论 倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统维基百科、新闻语料、百科问答、社区问答、中英翻译语料中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜知识图谱的数据集:常识原创 2020-12-25 09:03:26 · 1325 阅读 · 3 评论 -
NLP合集:教程/实体抽取/关系(三元组)抽取/文本分类/知识图谱/Bert系列/相似度判定/机器人问答/文本工具/竞赛方案精选/面试指南/NLP各类任务数据集等集合
Cool-NLPCV (持续更新中…)Some Cool NLP and CV Repositories and SolutionsCool-NLP | Cool-CV旨在收集NLP中常见任务的开源解决方案、数据集、工具、学习资料等,方便学习或快速查找。在此分享出来,供大家参考。欢迎积极分享并Star,谢谢!会持续不定时更新,也欢迎加入共同分享。1、机器学习&深度学习入门精选Python-100天从新手到大师斯坦福大学2014(吴恩达)机器学习教程中文笔记《统计学习方法》第二版的代原创 2020-12-24 11:28:24 · 5084 阅读 · 4 评论 -
基于知识图谱的语义理解技术及应用
知识图谱在人工智能应用中的重要价值日益突显。百度构建了超大规模的通用知识图谱,并在搜索、推荐、智能交互等多项产品中广泛应用。同时,随着文本、语音、视觉等智能技术的不断深入,知识图谱在复杂知识表示、多模语义理解技术与应用等方面都面临新的挑战与机遇。本文将介绍百度基于知识图谱,从文本到多模态内容的理解技术及应用的最新进展。本文主要内容包括: 背景 知识图谱文本语义理解 知识图谱视频语义理解 总结 01▬背景1.多模语义理解需求强烈多模语义理解需求.转载 2020-11-24 20:55:10 · 2786 阅读 · 0 评论 -
基于知识图谱构建新一代数据智能基础设施
导读:人工智能作为国家新基建战略的重点建设项目,是新一轮产业变革的核心驱动力量。当前人工智能正由感知智能走向认知智能,而知识图谱是实现认知智能的基石。知识图谱作为是大数据时代的知识工程集大成者,以其强大的语义表示能力、存储能力和推理能力,为互联网时代的数据知识化组织和智能应用提供了有效的解决方案。本次分享将探讨如何基于知识图谱构建新一代数据智能基础设施,实现海量多模态数据的深度语义化治理。主要内容包括: 新基建简介 知识图谱助力新基建 基于知识图谱的智能数据治理 基于知识转载 2020-11-24 13:56:37 · 3594 阅读 · 0 评论 -
实体识别实战一些tricks
1、基线方法: 领域字典+规则模板:优先考虑此方案是否达到预期效果,减少监督训练标注成本 BiLstm+crf:推断效率相对较高 Bert(家族)+crf:精度可能较高,但速度更慢,一般crf层学习率设置为Bert的5~10倍,加速crf层的学习(因为一般Bert微调时达到收敛轮次较少)2、样本少问题(是用绝大多数文本任务): 1、无条件文本增强: 词汇短语替换:词典、词向量、Masked LM、TF-IDF 随机噪声注入:随机插入、交换、删除...原创 2020-10-14 13:55:19 · 1396 阅读 · 0 评论 -
两年来预训练模型的技术进展(2018-2020)
转自:https://zhuanlan.zhihu.com/p/254821426Bert模型自18年10月推出,到目前为止快两年了。它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PTM)与应用如过江之鲫,层出不穷。Bert及它的继任者们,确实也不负众望,在NLP各个领域攻城略地,所向披靡,多种NLP数据集竞赛榜单,连续多年被各种新出现的预训练模型霸榜,有些榜单,个别模型已经把指标刷到超过人类。那么,在近两年的时间里,诸多改进模型中,有哪些令人印象深刻转载 2020-09-29 14:43:08 · 1159 阅读 · 0 评论 -
NLP论文多个领域经典、顶会、必读整理分享及相关解读博客分享
持续更新收集***1、Bert系列BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - NAACL 2019) ERNIE 2.0: A Continual Pre-training Framework for Language Understanding - arXiv 2019) StructBERT: Incorporating Language Structures into原创 2020-05-29 15:13:14 · 2922 阅读 · 1 评论 -
ACL2020信息抽取相关论文汇总
一、 Entity 相关(NER & Entity Typing & Entity Linking)主要涉及词汇增强、低资源、跨领域、跨语言、多模态、表示学习。 A Unified MRC Framework for Named Entity RecognitionXiaoya Li, Jingrong Feng, Yuxian Meng, Qinghong Han, Fei Wu and Jiwei Li https://arxiv.org/pdf/1910.11476.p.转载 2020-05-29 14:14:46 · 2300 阅读 · 1 评论 -
2020 NLP算法面试必备!NLP预训练模型的全面总结
转自:https://zhuanlan.zhihu.com/p/115014536预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trained Models for Natural Language Processing: A Survey》[1],这是一篇全面的综述,系统...转载 2020-04-27 20:50:53 · 2159 阅读 · 0 评论 -
最前沿的12个NLP预训练模型
1引言17年transformer被提出,18年迎来了ELMo和BERT的横空出世,19年预训练模型不出意外地开始了全面的爆发。所以,预训练模型也成为了NLPer绕不过去的一个技术栈,这篇文章将会梳理一下我学习过的12个预训练模型。这是一篇review性质的文章,跳过了一些基础的知识,可能会对一些没用过预训练模型的读者不大友好。预训练模型,在我看来,相对传统模型做的革新,主要体现在以...转载 2020-03-10 17:45:22 · 3647 阅读 · 0 评论 -
UniLM:基于bert的Seq2Seq
论文地址:Unified Language Model Pre-training for Natural Language Understanding and Generation概述: UniLM是微软研究院在Bert的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。它可以完成单向、序列到序列和双向预测任务,可以说是结合了AR和AE两种语言模型的优点,Unilm在抽象摘要、...转载 2020-02-20 17:09:51 · 6279 阅读 · 0 评论 -
NLP预训练模型:从transformer到albert
背景语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版robert...转载 2020-01-14 14:33:04 · 375 阅读 · 0 评论 -
智能聊天机器人平台的架构与应用
转自:https://mp.weixin.qq.com/s/c5uXsPIwFzoMwqmG2-JUPg导读:随着“中台”战略的提出,目前宜信中台建设在思想理念及架构设计上都已经取得了很多成果。宜信是如何借助中台化的思想打造“AI中台”及相关的智能产品呢?本次直播,宜信科技中心AI中台团队负责人王东老师分享了宜信AI中台的具体实施路径,并重点介绍了AI中台的智能产品——智能聊天机器人平台,包括...转载 2019-12-25 09:47:14 · 4061 阅读 · 0 评论 -
NLP预训练模型:从transformer到albert
背景语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版rober...转载 2019-12-25 09:00:33 · 395 阅读 · 0 评论 -
文本图像数据集合、打标工具
集大家之所长汇集于此,希望对有需要的你能有所帮助。一、打标签工具(1)labelimg/labelme这两款工具简便易行,前者主要用于对目标进行大致的标定,用于常见的框选标定,后者主要用于较为细致的轮廓标定,多用于mask rcnn等。安装也是很方便的,直接在终端下用pip install labelimg即可(至于labelme,需要先安装pyqt,所以先pip install py...转载 2019-12-24 10:02:19 · 5212 阅读 · 0 评论 -
基于Adversarial Attack的问题等价性判别比赛baseline
比赛地址:https://biendata.com/competition/2019diac/详见github数据处理:# -*- coding: utf-8 -*-"""# @Time : 2019/11/28 17:46# @Author : xiaoxiong# @Email : xyf_0704@sina.com# @File : data_pr...原创 2019-12-03 19:18:11 · 611 阅读 · 0 评论 -
NLP相关任务合集代码及解决思路
NLP相关任务合集(持续更新中…)Introduction本项目旨在收集一些NLP相关的任务实现示例,为后续相关任务实现提供一些参考,仅对NLP入门者有一定的参考意义。一些竞赛的解决方案文本相似度匹配关系抽取(三元组抽取) relation_extract基于bert关系抽取基于dgcnn(膨胀门卷积)关系抽取文本分类 text_classifier...原创 2019-12-03 15:18:42 · 385 阅读 · 0 评论 -
各种中文词向量集合
中文词向量集合https://github.com/Embedding/Chinese-Word-Vectors Word2vec / Skip-Gram with Negative Sampling (SGNS) Corpus Context Features Word ...原创 2019-12-03 11:15:05 · 882 阅读 · 0 评论 -
NLP任务一些经验总结
记录下NLP任务一些经验总结。输入1、字向量编码2、词向量编码(如果可以根据语料自己训练)3、位置编码,相对位置编码或者w2v思路的位置编码4、对于字向量与词向量如果要采用相加的形式组合在一起,可以把词向量重复n词,n表示的是当前词有多少个字,可以直接保证维度一致序列标注问题1、采用BIO做数据标注2、半指针-半标注,分别预测开始位置与结束位置3、多实体的可将开始位置与结束位...原创 2019-11-06 16:43:10 · 961 阅读 · 0 评论 -
BERT的[CLS]有什么用
[CLS]就是classification的意思,可以理解为用于下游的分类任务。主要用于以下两种任务:单文本分类任务:对于文本分类任务,BERT模型在文本前插入一个[CLS]符号,并将该符号对应的输出向量作为整篇文本的语义表示,用于文本分类,如下图所示。可以理解为:与文本中已有的其它字/词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个字/词的语义信息。语句对分类任务:该任...原创 2019-10-19 17:47:13 · 40454 阅读 · 19 评论 -
深度学习中Mask的基本原理
Mask的主要目的:排除在padding后对后续处理带来的影响!mask是伴随这padding出现的,因为神经网络的输入需要一个规整的张量,而文本通常都是不定长的,这样一来就需要裁剪或者填充的方式来使得它们变成定长,按照常规习惯,我们会使用0作为padding符号。这里用简单的向量来描述padding的原理。假设有一个长度为5的向量:x=[1,0,3,4,5]x=[1,0,3,4,5...转载 2019-10-15 17:26:24 · 5788 阅读 · 0 评论 -
BiLSTM-CRF模型做基于字的中文命名实体识别
三个月之前 NLP 课程结课,我们做的是命名实体识别的实验。在MSRA的简体中文NER语料(我是从这里下载的,非官方出品,可能不是SIGHAN 2006 Bakeoff-3评测所使用的原版语料)上训练NER模型,识别人名、地名和组织机构名。尝试了两种模型:一种是手工定义特征模板后再用CRF++开源包训练CRF模型;另一种是最近两年学术界比较流行的 BiLSTM-CRF 模型。 小白一...转载 2019-04-17 10:48:30 · 550 阅读 · 0 评论 -
通俗易懂Attention/Transformer模型详解干货
通俗易懂Attention/Transformer模型详解记录下写得比较好的Attention/Transformer(Attention is all you need)详解的文章,个人觉得讲得比较通俗易懂的,特别是针对我们这种非专业爱好者深度学习中的注意力机制(2017版)Attention is all you need 详解与代码实现详解Transformer模型(Atentio...原创 2019-04-22 10:10:00 · 1213 阅读 · 0 评论 -
Keras实现Seq2Seq预测模型
一个基于keras实现seq2seq(Encoder-Decoder)的序列预测例子序列预测问题描述:输入序列为随机产生的整数序列,目标序列是对输入序列前三个元素进行反转后的序列,当然这只是我们自己定义的一种形式,可以自定义更复杂的场景。输入序列 目标序列[13, 28, 18, 7, 9, 5] [18, 28, 13][29, 44, ...原创 2019-04-17 14:55:36 · 7009 阅读 · 20 评论 -
BiLSTM-CRF中CRF层的作用
1、先验知识: 命名实体识别或序列标注,基本掌握LSTM、CRF的基本概念。也可参考:LSTMCRF2、基本概念与假设:假设我们的数据集中有两类实体——人名和地名,与之相对应在我们的训练数据集中,有五类标签:B-Person, I- Person,B-Organization,I-Organization, O 假设句子x由五个字符w1,w2,...原创 2019-04-17 16:22:16 · 5136 阅读 · 0 评论 -
Lstm通俗详解
Lstm通俗详解LSTM因其特殊的网络结构,目前在序列建模中有非常大的优势,也算是序列建模的标配了(不考虑Self-Attention的情况下)。RNN的局限性对RNN有认识的人都知道RNN在训练的过程中会有长期依赖的问题,这是由于RNN模型在训练时会遇到梯度消失(大部分情况)或者梯度爆炸(很少,但对优化过程影响很大)的问题。对于梯度爆炸是很好解决的,可以使用梯度修剪(Gradien...原创 2019-04-27 15:20:56 · 1290 阅读 · 0 评论 -
Jieba常用功能 分词/自定义词典/标注/关键词提前/返回词位置
安装全自动:easy_install jieba 或者 pip install jieba 或者pip3 install jieba 手 动:jieba 目录放置于当前目录或者 site-packages 目录 半自动:下载http://pypi.python.org/pypi/jieba/、解压、运行python setup.py install算法基于统计词典,构造前缀词典;基于...转载 2019-04-18 19:34:49 · 4293 阅读 · 0 评论 -
通俗易懂Transformer
前言翻译一篇非常赞的解释Transformer的文章,原文链接。在之前的文章中,Attention成了深度学习模型中无处不在的方法,它是种帮助提升NMT(Neural Machine Translation)的翻译效果的思想。在本篇博客中,我们解析下Transformer,该模型扩展Attention来加速训练,并且在Google的NMT中表现突出。然而,其最大的好处是可并行。实际上谷歌云推...转载 2019-06-04 15:17:26 · 1075 阅读 · 1 评论 -
keras模型训练与保存的call_back的设置
1、模型训练fit(x=None, y=None, batch_size=None, epochs=1, verbose=1, callbacks=None, validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None, initial_e...原创 2019-09-07 14:07:33 · 2357 阅读 · 0 评论 -
CRF(条件随机场)与Viterbi(维特比)算法原理详解
摘自:https://mp.weixin.qq.com/s/GXbFxlExDtjtQe-OPwfokA https://www.cnblogs.com/zhibei/p/9391014.htmlCRF(Conditional Random Field),即条件随机场。经常被用于序列标注,其中包括词性标注,分词,命名实体识别等领域。Viterbi算法,即维特比算法。...原创 2019-04-17 10:36:52 · 25692 阅读 · 6 评论