自然语言处理(NLP)_風起云扬的博客-CSDN博客

自然语言处理(NLP)

关注

文章平均质量分 85

关注数：文章数：36 文章阅读量：223968 文章收藏量：1333

作者: 風起云扬

一位爱好运动的程序猿，本人主要在AI头部公司，从事AI算法研发以及提供AI解决方案，主要专注的研究方向：自然语言处理、知识图谱、多轮对话、信息抽取，服务行业有制造业、政府、军工领域；如果相关文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦；如果想了解更多深度学习与自然语言处理技术的发展、算法、业务落地和场景，可以联系我一起探讨

展开

还在用BERT做文本分类？分享一套基于预训练模型ERNIR3.0的文本多分类全流程实例【文本分类】

文本分类任务是自然语言处理中最常见的任务之一。文本分类简单定义来说就是对给定的文本，可以是一句话、一段文本、一篇文章利用文本分类器进行分类和打标签。文本分类任务广泛应用于长短文本、情感分析、新闻分类、事件类型分类、政务信息分类、商品类型分类、文章类型分类、论文类别、专利领域、案件描述、罪名分类、意图分类、论文专利分类、邮件自动分类、评论类型分类、药物反应分类、对话分类、税收分类、投诉分类、广告检测、敏感违禁内容分类、内容安全检测、预情分析、话题分类等等日常或者专业领域中。

原创 2023-01-01 16:33:46 · 4949 阅读 · 4 评论
章节七：RASA NLU组件介绍--意图分类器和实体提取器

意图分类器主要是对用户的每一次对话进行意图识别，确定用户的每次意图，确定客户每次问的意图是哪种，需要做什么。实体提取器主要是获取每一次对话的槽位信息。

原创 2022-12-27 15:36:07 · 2170 阅读 · 0 评论
章节六：RASA NLU组件介绍--特征生成器

RASA文本特征生成器分为两个不同类别：稀疏特征生成器如One-hot和密集特征生成器如Bert。稀疏特征生成器会返回具大量缺失值（例如零）的特征向量。但是由于这些特征向量通常会占用大量内存，因此我们将它们存储为稀疏特征，稀疏特征仅存储非零值及其在向量中的位置，能够在更大的数据集上进行训练。

原创 2022-12-27 15:20:34 · 1440 阅读 · 1 评论
文本分类方案，飞浆PaddleNLP涵盖了所有

转换为。

原创 2022-11-29 11:09:00 · 4516 阅读 · 0 评论
NLP进阶学习(一)-------AI项目管理流程：实验到落地

AI项目管理流程：实验到落地有一段时间没有写博客，有时间还得多写写，温故而知新。这一讲介绍了AI项目管理流程，并整理成了思维导图形式。思维导图链接：石墨思维导图...

原创 2020-03-16 19:37:39 · 1409 阅读 · 0 评论
论文UMBC at SemEval-2018 Task 8: Understanding Text about Malware解读

论文UMBC at SemEval-2018 Task 8: Understanding Text about Malware解读文章目录论文UMBC at SemEval-2018 Task 8: Understanding Text about Malware解读摘要三大任务Task 1 ----- Classify sentences relevant to malware1.models...

原创 2019-05-04 20:02:51 · 1085 阅读 · 2 评论
论文 Relation Classification via Convolutional Deep Neural Network 解读

论文 Relation Classification via Convolutional Deep Neural Network 解读目录论文 Relation Classification via Convolutional Deep Neural Network 解读目录前言论文介绍时间作者研究机构提出的问题论文的主要贡献论文的方案-DNN算法结构算法结构图结...

原创 2019-05-04 20:02:38 · 5706 阅读 · 7 评论
备注：一个非常实用的深度学习的英文博客

备注：一个非常实用的深度学习的英文博客人工智能，深度学习和NLP: http://www.wildml.com/

原创 2018-09-18 11:29:46 · 379 阅读 · 0 评论
论文 MalwareTextDB:A Database for Annotated Malware Articles 解读

摘要：首先，该论文创建了一个注释恶意软件文本的数据库，有意思的是，这是第一个注释恶意软件报告的数据库。注释框架是基于MAEC词汇，MAEC是用来描述恶意软件属性和特征的结构化语言。目前该数据库由39篇APT报告共6819句话组成。其次，作者基于数据库提出了5项任务，需要大家共同来完成这些挑战。注释的语句示例如下：背景1.APTnotes论文中的39篇APT报告的出处—APT...

原创 2019-05-04 20:02:20 · 1594 阅读 · 16 评论
辨析matmul product（一般矩阵乘积），hadamard product（哈达玛积）、kronecker product（克罗内克积）

矩阵乘法 1. matmul product（一般矩阵乘积） m x p矩阵A与p x n矩阵B，那么称 m x n 矩阵C为矩阵A与矩阵B的一般乘积，记作C = AB ，其中矩阵C元素$ [cij]为矩阵A、B对应两两元素之和，表示为：例子： 2. Hadamard product（哈达玛积） m x n矩阵A = [aij]与矩阵$B = [bij]的Hadamard积，记...

转载 2018-06-01 11:05:53 · 3221 阅读 · 0 评论
NLP最新进展paper和code集合

NLP最新进展paper和code集合： https://nlpprogress.com/

原创 2018-11-15 19:03:59 · 666 阅读 · 0 评论
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史注：之前分享了新浪微博机器学习部AI Lab的资深算法专家张俊林博士的PPT：《预训练在自然语言处理的发展: 从Word Embedding到BERT模型》，获得了很多同学的关注，现在更详细的解读来了，发表在张俊林博士的知乎专栏：深度学习前沿笔记。以下是张俊林博士的深度解读：Bert最近很火，应该是最近最火爆的AI进...

转载 2018-11-12 20:03:32 · 511 阅读 · 0 评论
自然语言处理中的自注意力机制（Self-attention Mechanism）

自然语言处理中的自注意力机制（Self-attention Mechanism）近年来，注意力（Attention）机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中，之前我对早期注意力机制进行过一些学习总结（可见http://www.cnblogs.com/robert-dlut/p/5952032.html）。随着注意力机制的深入研究，各式各样的attention被研究者们提出。...

转载 2018-12-16 20:14:46 · 1625 阅读 · 0 评论
注意力机制（Attention Mechanism）在自然语言处理中的应用

注意力机制（Attention Mechanism）在自然语言处理中的应用注意力机制（Attention Mechanism）在自然语言处理中的应用     近年来，深度学习的研究越来越深入，在各个领域也都获得了不少突破性的进展。基于注意力（attention）机制的神经网络成为了最近神经网络研究的一个热点，本人最近也学习了一些基于attention机制的...

转载 2018-12-16 20:47:29 · 562 阅读 · 0 评论
NLP 国外大牛博客（强烈推荐）

NLP国外大牛 Jay Alammar博客：https://jalammar.github.io/

原创 2018-12-18 12:44:58 · 5372 阅读 · 0 评论
卷积神经网络(CNN)在句子建模上的应用

大神的博客：http://www.jeyzhang.com/cnn-apply-on-modelling-sentence.html

原创 2018-06-06 16:54:05 · 492 阅读 · 0 评论
神经网络结构在命名实体识别（NER）中的应用

神经网络结构在命名实体识别（NER）中的应用近年来，基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展。作为NLP领域的基础任务—命名实体识别（Named Entity Recognition，NER）也不例外，神经网络结构在NER中也取得了不错的效果。最近，我也阅读学习了一系列使用神经网络结构进行NER的相关论文，在此进行一下总结，和大家一起分享学习。 1 引言命名...

转载 2018-05-30 17:51:22 · 1249 阅读 · 0 评论
NLP, 知识图谱参考资源

NLP 自然语言处理（Natural Language Processing）是深度学习的主要应用领域之一。教程 http://cs224d.stanford.edu/ CS224d: Deep Learning for Natural Language Processing http://web.stanford.edu/class/cs224n/syllabus.html cs2...

转载 2018-06-11 19:35:37 · 4040 阅读 · 0 评论
jieba详细使用说明

jieba“结巴”中文分词：做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.· Scroll down for English documenta

转载 2018-01-17 10:42:58 · 9474 阅读 · 1 评论
NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)

1. 比赛介绍这是一个文本多分类的问题：目标是“参赛者根据知乎给出的问题及话题标签的绑定关系的训练数据，训练出对未标注数据自动标注的模型”。通俗点讲就是：当用户在知乎上提问题时，程序要能够根据问题的内容自动为其添加话题标签。一个问题可能对应着多个话题标签，如下图所示。这是一个文本多分类，多label的分类问题（一个样本可能属于多个类别）。总共有300万条问题-话题对，超过2亿词，...

转载 2018-01-25 16:03:13 · 7999 阅读 · 1 评论
中文分词，词频统计，词云图制作

from collections import Counterimport jieba#jieba的安装就不多介绍，网上相应的教程比较多import matplotlib.pyplot as pltfrom wordcloud import WordCloud#wordcloud安装出现了bug，解决的方案就是另外一篇的blogWindows环境下Python中wor...

原创 2018-01-17 10:40:21 · 5460 阅读 · 0 评论
中文文本挖掘预处理流程

在对文本做数据分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点　　首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。　　首先，中文文本是没有像英文的单词空格那样隔开的，因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词，在文本挖

转载 2018-01-18 17:18:56 · 575 阅读 · 0 评论
英文文本挖掘预处理流程总结

1. 英文文本挖掘预处理特点　　英文文本的预处理方法和中文的有部分区别。首先，英文文本挖掘预处理一般可以不做分词（特殊需求除外），而中文预处理分词是必不可少的一步。第二点，大部分英文文本都是uft-8的编码，这样在大多数时候处理的时候不用考虑编码转换的问题，而中文文本处理必须要处理unicode的编码问题。这两部分我们在中文文本挖掘预处理里已经讲了。　　而英文文本的预处理也有自己特殊的地方，第三

转载 2018-01-18 17:22:25 · 1352 阅读 · 0 评论
word2vec的应用----使用gensim来训练模型

一、word2vec的原理就不介绍原理可以参考码农场介绍：http://www.hankcs.com/nlp/word-vector-representations-word2vec.html二、 gensim的介绍与使用1. gensim安装gensim是一个很好用的Python NLP的包，不光可以用于使用word2vec，还有很多其他的API可以用。安装gensim是很容...

原创 2018-01-18 17:45:56 · 61860 阅读 · 32 评论
基于深度学习的文本分类方法库（NLP）

原文来源：GitHub「机器人圈」编译：嗯~阿童木呀、多啦A亮这个库的目的是探索用深度学习进行NLP文本分类的方法。它具有文本分类的各种基准模型。它还支持多标签分类，其中多标签与句子或文档相关联。虽然这些模型很多都很简单，可能不会让你在这项文本分类任务中游刃有余，但是这些模型中的其中一些是非常经典的，因此它们可以说是非常适合作为基准模型的。每个模型在模型类型下都有一个测试函数。我们还探讨了用两个s...

翻译 2018-03-09 16:00:36 · 15876 阅读 · 3 评论
如何理解LSTM

循环神经网络人类针对每个问题的思考，一般不会是完全的从头开始思考。正如当你阅读这篇译文的时候，你会根据已经阅读过的内容来对后面的内容进行理解，你不会把之前的东西都丢掉从头进行思考，你对内容的理解是贯穿的。传统的神经网络做不到这一点，而这似乎是一个主要的缺点。例如，假设您想对电影中的每个事件进行分类。我们无法想象传统神经网络如何能够利用前面的场景去干预后面的预测。幸好循环神经网络解决了这个问题， ...

转载 2018-03-27 20:36:41 · 731 阅读 · 0 评论
Stanford-parser依存句法关系解释

计算机语言学家罗宾森总结了依存语法的四条定理：1、一个句子中存在一个成分称之为根（root），这个成分不依赖于其它成分。2、其它成分直接依存于某一成分；3、任何一个成分都不能依存与两个或两个以上的成分；4、如果A成分直接依存于B成分，而C成分在句中位于A和B之间，那么C或者直接依存于B，或者直接依存于A和B之间的某一成分；5、中心成分左右两面的其它成分相互不发生关系。使用斯坦福句法分析器做依存句法...

转载 2018-04-06 21:26:15 · 609 阅读 · 0 评论
中文分词（1）--NLTK的基础使用

【NLP】Python--中文分词走进大秦帝国1 NLTK简介NLTK（Natural language Toolkit）：自然语言工具包，Python编程语言实现的统计自然语言处理（NLP）工具。它是由宾夕法尼亚大学计算机和信息科学的史蒂芬-伯德和爱德华·洛珀编写的。 NLTK支持NLP研究和教学相关的领域，包括经验语言学，认知科学，人工智能，信息检索和机器学习。在2

转载 2018-01-16 20:22:04 · 3795 阅读 · 0 评论
自然语言处理（NLP）常用开源工具总结----不定期更新

学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具，在这里做一下汇总方便自己以后学习，其中有自己使用过的也有了解不是很多的，对于不甚了解的工具以后学习熟悉了会做更新的。1.IKAnalyzerIK Analyzer是一个开源的，基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始，IK Analyzer已经推出了多个版本，当前最新版本为2012 u6，最...

转载 2018-05-09 21:15:22 · 1155 阅读 · 0 评论
Neural Relation Extraction（神经关系抽取）的两篇文章

文章一《Neural Relation Extraction with Selective Attention over Instances》该论文中提到的Distant supervised是一种弱监督形式，作用是在Relation Extraction中可以从未标注的Knowledge Bases（KBs）语料中自动生成训练数据，定义由 (Mintz et al., 2009) 提出，dist...

转载 2018-05-09 21:17:55 · 1477 阅读 · 0 评论
[ACL2016]End-to-end Relation Extraction using LSTMs on Sequence and Tree Structures

框架图解释了文章的思想：１: 利用一个三层网络框架识别实体，实体用B(begin), I(Inside), L(Last), S(single), O(Outside)的表示, 第一层用BiLSTM更好的表示单词的语义，中间hidden层，输出层softmax, 输出层节点用的个数等于4×len(实体类型)+1，这个１的意思就是outside,　比如实体的类型有人名，就表示为B-PER, I-P...

转载 2018-05-09 21:18:32 · 450 阅读 · 0 评论
关于信息抽取的整理总结(上)

动机自然语言处理的课上老师介绍了关于信息抽取的相关内容，结合老师课件提到的相关文献，写一篇整体的总结将本类文献进行汇总，以便后续根据研究需要引用和深入阅读文献。1. 信息抽取概述1.1 信息抽取定义一般意义上，信息抽取的定义为：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术[1]。1.2 信息抽取的任务实体识别与抽取实体消岐关系抽取事件抽取2. 实体识...

转载 2018-05-09 21:19:14 · 5205 阅读 · 0 评论
关于信息抽取的整理总结(下)

4. 实体抽取和发现4.1 关系抽取任务定义Alexander Schutz等人认为关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组。 Example1: 比尔盖茨是微软的CEO CEO(比尔盖茨, 微软) Example2: CMU坐落于匹兹堡 Located-in(CMU, 匹兹堡) Example3:Michael Jordan获得1997/98赛季的M...

转载 2018-05-14 16:10:40 · 3017 阅读 · 0 评论
项目实战：如何构建知识图谱

作者丨徐阿衡学校丨卡耐基梅隆大学硕士研究方向丨QA系统实践了下怎么建一个简单的知识图谱，两个版本，一个从 0 开始（start from scratch），一个在 CN-DBpedia 基础上补充，把 MySQL，PostgreSQL，Neo4j 数据库都尝试了下。自己跌跌撞撞摸索可能踩坑了都不知道，欢迎讨论。1. CN-DBpedia 构建流程知识库可以分为两种类型，一种是以 Freebase，...

转载 2018-05-14 16:10:27 · 59871 阅读 · 13 评论
用深度学习解决大规模文本分类问题

用深度学习解决大规模文本分类问题人工智能头条 2017-03-27 22:14:22 淘宝阅读(228) 评论(0) 声明：本文由入驻搜狐公众平台的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。举报　　　　作者：清凇　　阿里巴巴搜索排序算法工程师　　原文：https://zhuanlan.zhihu.com/p/25928551 　　AI技术投稿、约稿、请发送邮件至he...

转载 2018-05-14 16:09:20 · 2148 阅读 · 0 评论
深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答

深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答作业内容翻译：@胡杨(superhy199148@hotmail.com) && @胥可(feitongxiaoke@gmail.com) 解答与编排：寒小阳 &&龙心尘时间：2016年6月出处： http://blog.csdn.net/han_xiaoyang/article/details/51

转载 2017-12-19 10:17:03 · 1931 阅读 · 1 评论

自然语言处理(NLP)

作者: 風起云扬

还在用BERT做文本分类？分享一套基于预训练模型ERNIR3.0的文本多分类全流程实例【文本分类】

章节七：RASA NLU组件介绍--意图分类器和实体提取器

章节六：RASA NLU组件介绍--特征生成器

文本分类方案，飞浆PaddleNLP涵盖了所有

NLP进阶学习(一)-------AI项目管理流程：实验到落地

论文UMBC at SemEval-2018 Task 8: Understanding Text about Malware解读

论文 Relation Classification via Convolutional Deep Neural Network 解读

备注：一个非常实用的深度学习的英文博客

论文 MalwareTextDB:A Database for Annotated Malware Articles 解读

辨析matmul product（一般矩阵乘积），hadamard product（哈达玛积）、kronecker product（克罗内克积）

NLP最新进展paper和code集合

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

自然语言处理中的自注意力机制（Self-attention Mechanism）

注意力机制（Attention Mechanism）在自然语言处理中的应用

NLP 国外大牛博客（强烈推荐）

卷积神经网络(CNN)在句子建模上的应用

神经网络结构在命名实体识别（NER）中的应用

NLP, 知识图谱参考资源

jieba详细使用说明

NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)

中文分词，词频统计，词云图制作

中文文本挖掘预处理流程

英文文本挖掘预处理流程总结

word2vec的应用----使用gensim来训练模型

基于深度学习的文本分类方法库（NLP）

如何理解LSTM

Stanford-parser依存句法关系解释

中文分词（1）--NLTK的基础使用

自然语言处理（NLP）常用开源工具总结----不定期更新

Neural Relation Extraction（神经关系抽取）的两篇文章

[ACL2016]End-to-end Relation Extraction using LSTMs on Sequence and Tree Structures

关于信息抽取的整理总结(上)

关于信息抽取的整理总结(下)

项目实战：如何构建知识图谱

用深度学习解决大规模文本分类问题

深度学习与自然语言处理(4)_斯坦福cs224d 大作业测验1与解答