自然语言处理
文章平均质量分 88
AI让世界更懂你
计算机科学与技术专业博士,主要研究方向为人工智能、自然语言处理、大规模语言模型和对话系统等。曾与微软小冰、微软小娜共同工作。兴趣广泛,包括并不限于人工智能,心理学,认知科学,语言学,数学,天文学等。让我们一起和AI,改进世界!
展开
-
NLP到底现在在研究些什么?从ACL2023投稿领域及细分领域看一看
我们经常会被外行人问到,现在自然语言处理到底在研究些什么啊?也经常会被内行人问到,你是做NLP的吗?你是做哪个方向的?正好借ACL的调查问卷,梳理一下NLP现在到底都在研究些什么。原创 2022-12-29 19:49:19 · 3019 阅读 · 1 评论 -
话到嘴边不会说,反向词典帮你找到那个最准确的表达!
当我们在进行中文写作或者是英文写作的时候,我们都会遇到这样的一个问题,那就是我们想要描述一件事情时,由于词汇的缺乏我们很难描述的特别准确。这就相当于,我们拥有值,但是找不到键。这点在英文中尤为突出,可以用一个词解决的,非要使用一个从句进行描述,从而造成我们的论文的信息量由于篇幅的限制而大大减少。原创 2020-05-29 11:33:07 · 5674 阅读 · 0 评论 -
汇总!话题分割的语料库与常用方法,这里全都有!
承接上一期描述的话题分割的任务定义和评估方法,在本文中,我们将去了解5个话题分割常用的语料库,以及4大类常用的话题分割的模型和方法,供大家学习和参考。原创 2020-05-28 12:31:26 · 2906 阅读 · 4 评论 -
一文包揽文本分割(话题分割)的6种评估性能的方法,理论+样例+代码,看完还不会的来找我!
在本文中,我们将会简要介绍文本分割任务,并介绍6种常用的性能评估指标,使用通俗易懂的例子进行一个直观的感受,并最后使用代码实现评估过程,让你看完本文,就可以进行文本分割任务的评估了。如果看完理论+样例+代码还是不会的话,直接私聊我!原创 2020-04-09 20:48:26 · 5624 阅读 · 5 评论 -
事理图谱之初见
由于研究方向问题,终于接触到这个融合了事件抽取和知识图谱的新领域——事理图谱。事理图谱论文应该在2017年初就已经提出。在2017年CNCC大会上,刘挺教授的演讲才让事理图谱走进大众视野。本章主要是一个背景知识介绍,所有内容均在2019年之前。下一章我们将会在讲习班过后进行补充今年以来的最新进展。要说事理图谱,就要说事件抽取和知识图谱。首先我们介绍事件抽取。事件抽取一直是信息抽取中较为热门的...原创 2019-07-18 14:49:54 · 1459 阅读 · 0 评论 -
2019斯坦福CS224n深度学习自然语言处理笔记(5)——句法分析
本文主要讲解如何进行句法分析,也就是如何进行解句子的结构与语义。原创 2019-06-12 12:00:12 · 1294 阅读 · 0 评论 -
2019斯坦福CS224n深度学习自然语言处理笔记(4)——反向传播与计算图
矩阵梯度下降及一些小贴士计算图模型与反向传播其他一些你应当知道的内容正则防止过拟合向量化非线性初始化优化学习率1. 矩阵梯度下降及一些小贴士1.1 梯度下降还是上节课的梯度下降,我们首先回顾一下:∂s∂W=δ∂z∂w=δ∂∂wWx+b\frac{\partial s}{\partial \bold W}=\delta\frac{\partial \bold z}{...原创 2019-04-17 16:38:57 · 1724 阅读 · 0 评论 -
2019斯坦福CS224n深度学习自然语言处理笔记(3)——分类模型与神经网络
前两章算是引言,主要介绍了什么是自然语言处理,以及自然语言处理中最基础的工作——如果和表示词的意思的相关工作。接下来,主要介绍一下分类模型和神经网络,并以命名实体识别和词窗口分类举例说明。最后简要介绍一下矩阵运算。1. 什么是分类?为了给没有基础的同学介绍一下背景,这里首先简要介绍一下分类。所谓的分类就是给定输入X,通过分类模型后,获得输出y,其中y是一个离散的值(可能有2个值,也可能有10个...原创 2019-04-11 17:15:41 · 821 阅读 · 0 评论 -
2019斯坦福CS224n深度学习自然语言处理笔记(2)——词向量与Glove
继续上一节的内容。还是沿着之前的思路,首先想到为什么不直接使用词共现矩阵,然后提出SVD的解决方法。在比较了基于统计和直接预测两种方法后,提出Glove模型。接着对于词向量的评估方法和一词多义问题提出相应的解决方法。1. 为什么不直接使用词共现矩阵获得词向量?在上一节中,最后提出一个问题,为什么不直接使用词共现矩阵获得词向量?1.1 词共现矩阵方法(窗口统计和全局统计)其方法有2种,第一种...原创 2019-04-08 10:43:06 · 809 阅读 · 0 评论 -
2019斯坦福CS224n深度学习自然语言处理笔记(1)——绪论与Word2Vec
本文内容整理自2019年斯坦福CS224n深度学习自然语言处理课程,其笔记为本人听课心得,重点在于对于知识内容的思考,并非课程原文笔记,应称为课后笔记。1.绪论在本堂课中,其基础技能需要懂得并应用:Ipython,numpy和Pytorch。其他的关于自然语言处理和深度学习,上了这堂课,你就会了解。1.1 语言的来源语言,语言是传递信息的声音和文字,是人类沟通的主要方式(其他方式包括图像、...原创 2019-04-04 13:15:57 · 1924 阅读 · 2 评论 -
段落向量与句子向量表达
这是Tomas Mikolov的一篇关于段落向量和句子向量的论文。本文是我翻译加自我理解的结果,如需要更详细的介绍,请看英文文献。摘要许多机器翻译的算法都需要使用固定长度的词向量特征。在到达文本层面时,我我们最常用的一个固定长度的特征时词袋模型。尽管他们很流行,但是词袋模型有两大缺点:1、失去了词序特征;2、忽略了语义特征,例如,powerful与strong和Paris距离都是非常远的。在本文中,原创 2017-05-20 17:08:27 · 28402 阅读 · 20 评论 -
关于python的机器学习与数据挖掘的相关的包
数据库类别PythonRMySQLmysql-connector-python(官方)RMySQLOraclecx_OracleROracleRedisredisrredisMongoDBpymongoRMongo, rmong转载 2016-12-04 19:25:41 · 6621 阅读 · 0 评论 -
Word2Vec的使用及java版运行解释及错误分析
最近由于要做一个工程性的近义词的工程,因此接触到了Word2Vec这个工具。Word2Vec是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同原创 2016-09-02 18:56:31 · 6152 阅读 · 47 评论