自然语言处理
郝伟博士
郝伟,男,留日计算机博士,副研究员,硕士生导师。师从东京大学松崎公纪教授,主要研究方向为网络安全、并行计算与大数据,尤其是在网络环境下大数据安全性的研究。北京华云安信息技术有限公司首席研究员,中新网安技术研究员,上海莱镁晟信息科技有限公司技术顾问。参与国家973项目和国家科技重大专项各1项,主持国家科研项目1项,13项国家发明专利,各类论文25篇,合肥市政认定高层次人才。与清华大学、海克斯康、国防科技大学等多家单位有技术合作。
展开
-
安装Jieba失败怎么办?
在安装Jieba时,由于默认使用的是境外的服务器,所以经常会因此网络连接不好,而导致安装失败,如下图所示。这时,我们可以使用国内的一些镜像站点,如清华大学提供了国内的下载站点,我们可以使用以下命令进行安装:$ pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba一般情况下,即可完成安装,如果仍然有问题,可以自行搜索其他的下载站点。...原创 2020-08-07 09:23:16 · 2577 阅读 · 0 评论 -
Python基本文本读写操作
前言在计算机中,除了一些专用的文字处理软件 ,如Office,WPS等,最简单的文本文件(*.txt)反而是最流行和广泛使用的用于保存自然语言的数据格式。为了节省空间,文字会以某种编码的形式进行保存。在大多数的中文系统中,“ utf-8 ”或“ GBK ”是最常见的编码格式。文本文件的基本操作的原则是“以什么编码格式保存的,就以什么编码格式打开 ”。大部分常用的编码器都会支持这两种格式,因此这些编辑器,如系统自带的记事本或常见文档编辑器如Word,都不会出现因为编码不支持而产生的乱码的情况发生。然而我们在原创 2020-08-04 23:55:47 · 422 阅读 · 1 评论 -
NLP 任务中有哪些巧妙的 idea?
文章目录1. 分布式假设(Distributional Hypothesis)2. 词袋模型(Bag-of-Words)3. 潜在语义分析(Latent Semantic Analysis)4. 概率主题模型(Probabilistic Topic Models )5. 基于BMES的中文分词或基于BIO的NER/Chunking6. 基于PageRank的TextRank转载来源:https://www.zhihu.com/question/356132676/answer/901244271作者:转载 2020-07-01 15:00:12 · 326 阅读 · 0 评论 -
给你的数据加上杠杆:文本增强技术的研究进展及应用实践
文章目录漏译数据稀疏引入知识语篇翻译转载来源:https://www.zhihu.com/question/59282269/answer/641009083作者:飞桨PaddlePaddle漏译第一个挑战就是漏译,很多时候,原语言句子有些词没有被翻译出来,比如说在这个句子里面,『假』和『恶』没有被翻译出来。甚至有的时候输入一个长句子有逗号分隔,有几个子句都没有翻译出来。这确实是神经网络翻译面临的一个问题。通过刚才的讲解知道,翻译模型把原文句子整体读进去以后形成了一个向量,然后再对这个向量进行转载 2020-07-01 14:58:54 · 285 阅读 · 0 评论 -
文本生成评价指标的进化与推翻
文章目录前言基于词重叠率的方法机器翻译 & 摘要 常用指标BLEUROUGENISTMETEORTERdata to text 常用指标relation generation (RG)content selection (CS)content ordering (CO)如何实现上述的评价指标CoverageDistinctimage caption 常用指标CIDEr好处SPICE词向量评价指标Greedy MatchingEmbedding AverageVector Extrema基于语言模型的转载 2020-07-01 14:56:22 · 453 阅读 · 0 评论 -
HeterSumGraph,异质图神经网络的抽取式摘要模型
文章目录建模句间关系HeterSumGraph(HSG)实验与分析引用文献Heterogeneous Graph Neural Networks for Extractive Document Summarization (ACL 2020)链接:http://arxiv.org/abs/2004.12393代码:https://github.com/brxx122/HeterSUMGraph作者:Danqing Wang, Pengfei Liu, Yining Zheng, Xipeng Q转载 2020-07-01 14:50:39 · 731 阅读 · 0 评论 -
制药业中的自然语言处理(NLP)
文章目录NLP 用于发现新药物化合物NLP 用于将参与者纳入临床试验药品营销的 NLP参考资料转载来源:https://zhuanlan.zhihu.com/p/140044281自然语言处理(NLP)在制药业的使用似乎少于机器视觉和预测分析等 AI 方法,但尽管如此,NLP 在制药业仍有一些应用。该行业主要处理结构化数据,但是在某些业务领域中,非结构化数据是常态。在本文中,我们讨论了自然语言处理如何帮助制药公司理解其非结构化数据并使用其进行决策。制药公司可能拥有各种数字格式的类型化、非结构化数据,转载 2020-07-01 14:48:56 · 687 阅读 · 0 评论 -
Fast BERT论文解读
文章目录一、概述二、模型详解BackBoneModel TrainingAdaptive Inference三、实验三、结论转载来源:https://zhuanlan.zhihu.com/p/143027221自从 BERT 出现后,似乎 NLP 就走上了大力出奇迹的道路。模型越来越大参数越来越多,这直接导致我们需要的资源和时间也越来越多。发文章搞科研似乎没有什么,但是这些大模型很难在实际工业场景落地,不只是因为成本过高,也因为推理速度不支持线上实际情况。最近好多文章都开始针对 BERT 进行瘦身,转载 2020-06-25 13:10:41 · 320 阅读 · 0 评论 -
万字长文带你一览ICLR2020最新Transformers进展
文章目录1. Self-atention 的变体Long-Short Range AttentionTree-Structured Attention with Subtree MaskingHashed AttentioneXtra Hop Attention2. 训练目标Discriminative Replacement TaskWord and Sentence Structural TasksType-Constrained Entity Replacement3. EmbeddingsPosit转载 2020-06-25 13:09:41 · 513 阅读 · 0 评论 -
超越 BERT 模型的 ELECTRA 代码解读
文章目录1、概述2、ELECTRA 模型2.1 总体框架2.2 代码框架2.3 pretraining 阶段2.3.1 主方法入口2.3.2 数据 mask2.3.3 Generator BERT2.3.4 Discrimina BERT2.3.5 总的损失函数2.3.6 模型优化以及 checkpoint2.4 finetuning 阶段2.5 序列训练改进2.5.1 TPU 改 GPU 训练2.5.2 负采样改造3、总结4、参考文献转载来源:https://zhuanlan.zhihu.com/p/转载 2020-06-25 13:08:39 · 711 阅读 · 0 评论 -
ACL2020 | 线上搜索结果大幅提升!亚马逊提出对抗式query-doc相关性模型
文章目录背景模型问题定义模型架构分类器文本生成器生成器和 query 的联动损失函数设计与训练实验与效果模型效果生成器效果结论与展望转载来源:https://zhuanlan.zhihu.com/p/144911605背景搜索和推荐经常会被放在一起对比,其中最突出的区别就是搜索中存在 query,需要充分考虑召回内容和 query 之间的相关性,而如果内容是搜索广告,则对内容有更高的要求,相关性过低的内容被展示会让用户有很差的体验。相关性在一定程度上可以被抽象成 doc 和 query 之间的语义相转载 2020-06-25 13:07:22 · 406 阅读 · 0 评论 -
模型压缩95%,MIT韩松等人提出新型Lite Transformer
文章目录长短距离注意力(LSRA)实验设置架构实验结果机器翻译与自动化设计模型的对比文本摘要转载来源:https://zhuanlan.zhihu.com/p/146448576Transformer 的高性能依赖于极高的算力,这让移动端 NLP 严重受限。在不久之前的 ICLR 2020 论文中,MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer,向在边缘设备上部署移动级 NLP 应用迈进了一大步。选自 arXiv,作者:Zhanghao Wu 等,转载 2020-06-25 13:06:31 · 346 阅读 · 1 评论 -
从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史
文章目录1.BERT 原理及 MLM 简述1.1 Masked Language Model & Next Sentence Predict**1.2 Self-Attention1.3 Denoising Auto Encoder1.4 BERT 缺点2.XLNet 原理及 PLM 简述2.1 排列语言模型 - Permutation Language Model2.2 双流自注意力2.3 双向 AR Model3.MPNet 原理及创新点简述3.1 统一视角3.2 模型架构3.3 MPNet 优转载 2020-06-25 13:05:34 · 722 阅读 · 0 评论 -
BERT 可解释性-从“头”说起
文章目录一、背景介绍二、Bert 模型 Attention-Head 实验2.1 Attention-Head 比较冗余2.2 某些 head 负责判断词的边界 (使得字模型带有分词信息)2.3 某些 head 负责编码输入的顺序2.4 某些 head 负责 query 和 title 中相同部分的 term 匹配2.4.1 finetune 对于负责 term 匹配 attention-head 的影响2.4.2 是否有某个 head 特别能影响模型2.4.3 高层 head 是如何提取底层 head 特转载 2020-06-19 14:07:14 · 746 阅读 · 0 评论 -
XLNet:运行机制及和Bert的异同比较
文章目录自回归语言模型(Autoregressive LM)自编码语言模型(Autoencoder LM)XLNet做了些什么与Bert的预训练过程的异同问题哪些因素在起作用?对NLP应用任务的影响转载来源:https://zhuanlan.zhihu.com/p/70257427最近,XLNet貌似也引起了NLP圈的极大关注,从实验数据看,在某些场景下,确实XLNet相对Bert有很大幅度的提升。就像我们之前说的,感觉Bert打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而XLNe转载 2020-06-19 14:04:49 · 262 阅读 · 0 评论 -
NLP的发展历程
文章目录一、第一阶段(地上爬)1、传统统计语言模型:n-gram2、 n-gram 存在的三个缺点二、第二阶段(爬上第一阶梯)1.NNLM(Neural Net Language Model)--铺垫2.NNLM优化----铺垫3.word2vec---突破4.word2vec---发展三、第三阶段(爬上第二阶梯)1.ELMo--铺垫2.GPT--曙光3.bert--突破4.bert--发展参考文献转载来源:https://zhuanlan.zhihu.com/p/143473222介绍bert之前我们转载 2020-06-19 14:03:55 · 438 阅读 · 0 评论 -
自然语言理解难在哪儿?
文章目录自然语言理解本质是结构预测自然语言理解的关键是语义表示自然语言有哪些特点创新性递归性多义性主观性社会性自然语言理解难在哪结构语义表示空间构建多模态复杂语境的理解小结参考文献转载来源:https://zhuanlan.zhihu.com/p/96801863作者:刘知远在微博和知乎上关注自然语言处理(NLP)技术的朋友,应该都对#NLP太难了#、#自然语言理解太难了#两个话题标签不陌生,其下汇集了各种不仅难煞计算机、甚至让人也发懵的费解句子或歧义引起的笑话。然而,这些例子只是让人直觉计算机转载 2020-06-16 10:40:56 · 443 阅读 · 0 评论 -
带你理解朴素贝叶斯分类算法
文章目录分类问题综述朴素贝叶斯分类例题分析朴素贝叶斯算法的朴素一词解释朴素贝叶斯分类的优缺点转载来源:https://zhuanlan.zhihu.com/p/26262151贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。分类问题综述对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如转载 2020-06-16 10:39:38 · 794 阅读 · 0 评论 -
Attention 机制
文章目录Attention 的本质是什么Attention 的3大优点Attention 的原理Attention 的 N 种类型转载来源:https://easyai.tech/ai-definition/attention/Attention 正在被越来越广泛的得到应用。尤其是 BERT 火爆了之后。Attention 到底有什么特别之处?他的原理和本质是什么?Attention都有哪些类型?本文将详细讲解Attention的方方面面。Attention 的本质是什么Attention(注意转载 2020-06-16 10:16:27 · 2027 阅读 · 0 评论 -
word2vec是如何得到词向量的?
文章目录前言1 Word2Vec两种模型的大致印象2 CBOW模型的理解3 CBOW模型流程举例转载来源:https://www.zhihu.com/question/44832436/answer/266068967前言word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料库你需要增加分词处理。这个过程其他的答案已经转载 2020-06-16 10:06:58 · 245 阅读 · 0 评论 -
一文搞懂RNN(循环神经网络)基础篇
文章目录神经网络基础为什么需要RNN(循环神经网络)RNN结构总结转载来源:https://zhuanlan.zhihu.com/p/30844905神经网络基础神经网络可以当做是能够拟合任意函数的黑盒子,只要训练数据足够,给定特定的x,就能得到希望的y,结构图如下:将神经网络模型训练好之后,在输入层给定一个x,通过网络之后就能够在输出层得到特定的y,那么既然有了这么强大的模型,为什么还需要RNN(循环神经网络)呢?为什么需要RNN(循环神经网络)他们都只能单独的取处理一个个的输入,前一个输入转载 2020-06-16 09:59:36 · 567 阅读 · 0 评论 -
详解Transformer (Attention Is All You Need)
文章目录前言1. Transformer 详解1.1 高层Transformer1.2 输入编码1.3 Self-Attention1.3 Multi-Head Attention1.4 Encoder-Decoder Attention1.5 损失层2. 位置编码3. 总结转载来源:https://zhuanlan.zhihu.com/p/48508221前言注意力(Attention)机制由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上转载 2020-06-16 09:54:08 · 926 阅读 · 1 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
文章目录图像领域的预训练Word Embedding考古史从Word Embedding到ELMO从Word Embedding到GPTBert的诞生转载来源:https://zhuanlan.zhihu.com/p/49271699Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最转载 2020-06-16 09:51:00 · 506 阅读 · 0 评论 -
Soft-Masked BERT:文本纠错与BERT的最新结合
文章目录一.文本纠错示例与难点二.文本纠错常用技术三、将BERT应用于文本纠错四、文本纠错最优模型:Soft-Masked BERT论文简要分析检测网络 与 Soft Masking纠正网络实验结果五、立马上手的纠错工具推荐Reference转载来源:https://zhuanlan.zhihu.com/p/144995580文本纠错,是自然语言处理领域检测一段文字是否存在错别字、以及将错别字纠正过来的技术,一般用于文本预处理阶段,同时能显著缓解智能客服等场景下语音识别(ASR)不准确的问题。本文将转载 2020-06-08 23:10:18 · 1054 阅读 · 1 评论 -
BiLSTM上的CRF,用命名实体识别任务来解释CRF(3)推理
文章目录为新的句子推理标签步骤1:BiLSTM-CRF模型的Emission和transition得分步骤2:开始推理步骤3:找到具有最高得分的最佳路径转载来源:https://mp.weixin.qq.com/s/7s9dTJuT0yWVJOT9tOkjuQ导读:今天是第三部分,介绍如何推理新的句子。为新的句子推理标签在前面的章节中,我们学习了BiLSTM-CRF模型的结构和CRF损失函数的细节。你可以通过各种开源框架(Keras、Chainer、TensorFlow等)实现自己的BiLSTM转载 2020-06-08 23:09:23 · 373 阅读 · 0 评论 -
BiLSTM上的CRF,用命名实体识别任务来解释CRF(2)损失函数
文章目录回顾2. CRF层2.1 Emission得分2.2 Transition得分2.3 CRF损失函数2.4 实际路径得分2.5 所有可能的路径的得分附言转载来源:CreateMoMo今天是第二部分,给大家推导一下CRF的损失函数如何计算,思路很清楚。回顾在前一节中,我们知道CRF层可以从训练数据集中学习一些约束,以确保最终预测的实体标签序列是有效的。约束条件可以是:句子中第一个单词的标签应该以“B-”或“O”开头,而不是“I-”“B-label1 I-label2 I-label转载 2020-06-08 23:08:39 · 689 阅读 · 1 评论 -
BiLSTM上的CRF,用命名实体识别任务来解释CRF(1)
文章目录回顾2. CRF层2.1 Emission得分2.2 Transition得分2.3 CRF损失函数2.4 实际路径得分2.5 所有可能的路径的得分附言转载来源:CreateMoMo今天是第二部分,给大家推导一下CRF的损失函数如何计算,思路很清楚。回顾在前一节中,我们知道CRF层可以从训练数据集中学习一些约束,以确保最终预测的实体标签序列是有效的。约束条件可以是:句子中第一个单词的标签应该以“B-”或“O”开头,而不是“I-”“B-label1 I-label2 I-label转载 2020-06-08 23:06:41 · 208 阅读 · 0 评论 -
什么是语言?什么是自然语言?
文章目录一、什么是语言?表达方式性质定义特性结构种类用途文字特征符号性和系统性任意性和线条性不变性和可变性传承性和交际性表征加工生理机制语音知觉语言起源二、什么是自然语言?简介发展特点VB缺陷转载来源:https://blog.csdn.net/R1uNW1W/article/details/79683747一、什么是语言?语言(英文名:Language)是人类最重要的交际工具,是人们进行沟通交流的主要表达方式。人们借助语言保存和传递人类文明的成果。语言是民族的重要特征之一。一般来说,各个民族都有自己转载 2020-06-08 23:05:43 · 4758 阅读 · 0 评论 -
深度学习(Deep Learning),自然语言处理(NLP)及其表达(Representation)
文章目录简介单隐含层神经网络共享表达(Shared Representations)递归神经网络结论文章来源转载来源:https://blog.csdn.net/ycheng_sjtu/article/details/48520293简介过去几年中,深度神经网络在模式识别领域占据着统治地位。他们在诸多计算机视觉任务领域,将之前的最好算法彻底击败。语言识别也正朝着这个方向发展。They blew the previous state of the art out of the water for m转载 2020-06-08 23:04:53 · 636 阅读 · 0 评论 -
微调预训练模型的新姿势——自集成和自蒸馏
文章目录1、什么是自蒸馏?2、为什么要自蒸馏?3、如何进行自蒸馏?4、通过自蒸馏我们可以得到什么?转载来源:https://zhuanlan.zhihu.com/p/133804801论文:Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation链接:https://arxiv.org/abs/2002.10345作者:Yige Xu, Xipeng Qiu, Ligao Zhou, Xuanjing Huang本文提转载 2020-06-08 23:03:22 · 2189 阅读 · 1 评论 -
NLP 中的Mask全解
文章目录Mask的作用处理非定长序列RNN中的MaskAttention中Mask防止标签泄露Transformer中的MaskBERT中的MaskXLNet中的Mask转载来源:https://zhuanlan.zhihu.com/p/139595546Mask 在NLP中是一个很常规的操作,也有多种应用的场景和形式,下面尝试从以下几个方面去全(用了夸张的修辞手法)解Mask,并尽可能地辅以图片说明和代码解释:Mask的作用:处理非定长序列RNN中的MaskAttention中Mask转载 2020-06-08 23:02:06 · 2011 阅读 · 0 评论 -
用Siamese和Dual BERT来做多源文本分类
文章目录数据单个BERT双路BERTSIAMESE BERT总结转载来源:https://mp.weixin.qq.com/s/cyNcVNImoCOmTrsS0QVq4w导读:使用不同的方式来使用BERT模型。在NLP中不断的研究产生了各种各样的预训练模型。对于各种任务,例如文本分类、无监督主题建模和问题回答等,不断的在刷新业界最佳。其中,最伟大的发现之一是在神经网络结构中采用了注意力机制。这种技术是所有称为transformers的网络的基础。他们应用注意力机制来提取关于给定单词上下文的信息转载 2020-06-08 23:00:33 · 564 阅读 · 0 评论 -
NLP中数据增强的综述,快速的生成大量的训练数据
文章目录方法1.词汇替换2. 反向翻译3. 文本表面转换4. 随机噪声注入5. 实例交叉增强6. 语法树操作实现总结转载来源:https://mp.weixin.qq.com/s/Ey24ZEAgFEl9ZN0jw2y76g导读:深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的。与计算机视觉中使用图像进行数据增强不同,NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作,如将图像旋转或将其转换为灰度,并不转载 2020-06-08 22:59:15 · 363 阅读 · 0 评论 -
ICLR 2020趋势分析:NLP中更好&更快的Transformer
文章目录自注意力变体Long-Short Range Attention使用子树掩码的树结构的注意力哈希注意力多跳注意力训练目标识别替换任务词和句子结构任务类型限制的实体替换嵌入位置感知的复杂词向量层次嵌入分解的嵌入参数模型结构压缩记忆可逆层交叉层参数共享自适应深度预测总结转载来源:https://mp.weixin.qq.com/s/hbx4DryEaaB0TlJPH7uyyA导读:介绍了ICLR2020中对Transformer的改进,从自注意力变体,训练目标,模型结构这三个方面对Transfor转载 2020-06-08 22:57:53 · 530 阅读 · 0 评论 -
自然语言处理(NLP)语义分析--文本分类、情感分析、意图识别
文章目录第一部分:文本分类一、文本预处理(解决特征空间高维性、语义相关性和特征分布稀疏)二、文本特征提取三、分类模型第二部分:情感分析一、概述二、基于情感词典的情感分类方法三、基于机器学习的情感分类方法第三部分:意图识别一、概述二、意图识别的基本方法三、意图识别的难点转载来源:https://blog.csdn.net/weixin_41657760/article/details/93163519第一部分:文本分类训练文本分类器过程见下图:文本分类问题: 给定文档p(可能含有标题t),将文档分类转载 2020-05-31 11:51:59 · 5332 阅读 · 0 评论 -
NLP中的自监督表示学习
文章目录1. 预测中心词2. 预测邻居词3. 相邻句子的预测4. 自回归语言建模5. 掩码语言建模6. 下一个句子预测7. 句子顺序的预测8. 句子重排9. 文档旋转10. 表情符号预测转载来源:https://mp.weixin.qq.com/s/eROWWPQkUs91bcv4VsQqSA虽然计算机视觉在自监督学习方面取得了惊人的进展,但在很长一段时间内,自监督学习一直是NLP研究领域的一等公民。语言模型早在90年代就已经存在,甚至在“自我监督学习”这个术语出现之前。2013年的Word2Vec论文转载 2020-05-31 11:48:23 · 649 阅读 · 0 评论 -
自然语言处理的数学原理(二)
文章目录统计语言模型的具体描述一个简单的例子统计语言的描述条件概率的估算统计语言模型用于分词的细节讨论二元模型的扩展统计语言模型的局限性统计语言模型的训练问题语料库的选取分词一致性与颗粒度小结转载来源:blog.csdn.net/ZLJ925/article/details/79020158上一篇文章介绍了 NLP 中处理分词的两种方法,其中基于统计语言模型的方法以巨大的优势胜出。在上一篇文章的末尾,我们讲了优秀的算法模型在形式上应该是简洁优雅的。具体来说:一个正确的数学模型在形式上应该是简洁优雅转载 2020-05-31 11:46:18 · 407 阅读 · 0 评论 -
自然语言处理的数学原理(一)
文章目录从分词的角度来看文法分析与统计模型文法分析的困境查字典分词法千呼万唤始出来的统计模型小结转载来源:https://blog.csdn.net/ZLJ925/article/details/79019500一个基本的搜索引擎的工作,基本上可以分成以下三个部分:利用网络爬虫下载网页,分析网页关键词,制成索引备用;理解用户输入,确定检索关键词;根据关键词和网页索引,按照相关性排序列出搜索结果。第一个部分主要涉及网络爬虫技术、图论、自然语言处理等技术;第二个部分主要涉及自然语言处理;第三转载 2020-05-31 11:45:16 · 336 阅读 · 0 评论 -
8个方法解决90%的NLP问题
文章目录一、收集数据二、数据清洗三、找到一种好的数据表达方式四、分类五、检验混淆矩阵六、词汇结构的统计七、语义信息的利用Word2Vec八、使用端到端的方式训练语法特征写在最后转载来源:https://blog.csdn.net/weixin_42137700/article/details/89763939一、收集数据每一个机器学习问题都始于数据,比如一组邮件、帖子或是推文。文本信息的常见来源包括:商品评价(来自 Amazon、Yelp 以及其他 App 商城)用户产出的内容(推文、Fa转载 2020-05-31 11:44:03 · 610 阅读 · 0 评论 -
自然语言处理标记工具汇总
转载来源:https://blog.csdn.net/wangyizhen_nju/article/details/94559607>整理了一些比较好用的自然语言处理标记工具,如有遗漏欢迎补充。转载 2020-05-31 11:43:07 · 489 阅读 · 0 评论