【算法】自然语言
文章平均质量分 96
爱科研的徐博士
中科院博士,助理研究员,专注于多模态+NLP,热爱科研,想成为你的科研小助手~
我相信:所谓的不平凡就是平凡的幂次方
展开
-
知识图谱(Knowledge Graph)之综述理解
注:该博文是我在看了数篇知识图谱综述以及阅读了相关资料后的一个总结以及自己的相关理解。知识图谱技术是人工智能技术的重要组成部分,以结构化的方式描述客观世界中的概念、实体及其键的关系。知识图谱提技术提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。因此,建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能...原创 2019-03-08 09:36:59 · 72055 阅读 · 8 评论 -
自然领域中的数据集
引言这将会是一个不断更新的博客,提供了一些数据集下载来源或者数据集信息介绍。在我的研究中,我可能会碰到一些相关任务的数据集,在此做个记录,顺便分享给大家。一、实体、关系抽取相关的数据集CoNLLCoNLL: The SIGNLL Conference on Computational Natural Language Learning。具体的解释可以参见这里 或者这里其中,SIGNLL ...原创 2020-04-04 15:43:05 · 4028 阅读 · 2 评论 -
迁移学习、端到端学习、多任务学习
文章目录迁移学习多任务学习端到端学习端到端学习的优点端到端学习的缺点:迁移学习迁移学习(Transfer Learnining)是将一个神经网络从一个任务中学到的知识和经验,运用到另一个任务中。如下例所示如上图所示,将为猫识别器构建的神经网络迁移应用到放射诊断中,因为猫识别器的神经网络已经学习到了关于图像的结构和性质等方面的知识,所以只要先删除神经网络中的最后一层,输出层的权重也改为随机初...原创 2020-04-01 17:34:25 · 1468 阅读 · 0 评论 -
CRF++在linxu下的使用
写在前面的话在之前的博文中,我们曾经介绍了在windows下如何使用cRF ++,以及如何在ubuntu系统下安装CRF++。在本节我们将简要介绍一下,如何在ubuntu下使用CRF ++.实际上是大同小异。Ubuntu 下使用CRF如果你已经看过了,如何在widows下使用(PS:如果你没有看过,最好再看一下,因为那篇博文中不仅仅介绍了如何使用,同时也介绍了一下参数的说明以及一些文档的说明,请点击原创 2017-11-05 17:54:58 · 880 阅读 · 0 评论 -
CRF++使用教程
前言 CRF++是著名的条件随机场的开源工具,也是目前综合性能最佳的CRF工具。在这里我们简单介绍一下windows系统下CRF++的使用。一、工具包的下载:CRF 的工具有两种,一种是支持Linux环境的,一种是支持Windows环境的,大家可以自行根据自己的系统进行下载。 (在此我下载的是CRF++0.58)安装在此先简单说一下Linux环境下的安装,后面我们主要介绍Windows环境原创 2017-11-01 16:09:13 · 32168 阅读 · 29 评论 -
深度学习相关资料
方便查找而已1、Deep learning for NLP 2、Neural networks and deep learning原创 2017-11-23 18:49:40 · 300 阅读 · 0 评论 -
Collapsed Gibbs Sampling
(The contents of this post are largely due to a conversation with Percy Liang at ACL.)I’m a big fan of Gibbs sampling for Bayesian problems, just because it’s so darn easy. The standard setup for Gibbs转载 2017-12-20 21:09:35 · 2252 阅读 · 0 评论 -
LDA主题模型相关阅读资料
前言 主要是为了后期查询资料比较方便。最近阅读了一点有关LDA主题模型的资料,现在小记一下,日后如果有时间,再整理成篇。参考资料1、通俗理解LDA主题模型 2、LDA数学八卦 这篇文章最后有相关链接,可以点击阅读。 3、从头到尾彻底理解LDA4、LDA主题模型算法5、学习topic model LDA主题模型6、LDA工程实践7、文本主题模型LDA 本文也是有相关链接的8、文本主题模型之原创 2017-11-17 16:28:08 · 430 阅读 · 0 评论 -
词性标注集句和句法分析标注集
两大标注集说明词性标注集一个简单的概括以字母顺序展开解释句法分析树标注集参考文献说明因为在学习自然语言处理过程中,遇到了很多标注符号(比如,词性标注,句法分析树)记不住其具体含义,在此总结如下。主要工作是整合一下,方便查询,后面给出了参考的博客。词性标注集一个简单的概括其实,我们常见的词性主要就是以下几大类,当然还有一些小众类,后面也会给出介绍。词性符号代表名词N...原创 2019-07-12 11:12:20 · 2153 阅读 · 0 评论 -
CRF++ 在ubuntu 下 python接口的安装
前言在之前的博文我们介绍了CRF++的使用,主要介绍在如何在Windows系统下使用CRF++,顺便简单介绍了一下,如何在linux系统下安装CRF++,我想大家可能会遇到各种坑吧,在此,我们详细介绍一下,如何在ubuntu系统下安装CRF++,仍然以CRF++-0.58为例。安装1、下载cfr++-0.58 for linux网上有很多素材,大家自行下载即可,本来想分享给大家,但是没有上传成功,原创 2017-11-05 12:07:28 · 2285 阅读 · 0 评论 -
作业提交
说明1、准备语言:Python数据:1998年1月份人民日报语料2、数据预处理删除掉缺少标签的词以及空格、空行将数据随机分为5等均份3、编程实现任务:词性标注方法:隐马尔维特比算法 利用训练语料进行训练,获得状态概率转移矩阵、发射矩阵、初始状态矩阵。利用测试语料进行预测词语的词性4、模型验证采用十折交叉验证方法,计算预测结果平均的准确率。结果原创 2017-11-11 10:36:35 · 1109 阅读 · 0 评论 -
(初学者)用python进行自然语言处理笔记二
语料库本部分主要是接受nltk.corpus中的各种(主要的)语料库,以及一些统计信息。# -*- encoding:utf-8 -*-import nltkimport sysreload(sys)sys.setdefaultencoding('utf-8')'''############################以下内容是有关古腾堡语料库的####################原创 2017-08-02 17:32:31 · 1084 阅读 · 0 评论 -
(初学者)用Python进行自然语言处理笔记一
Python编程链表list在Python中链表的表示为:[](这是一个空链表),或者[‘A’,’B’].list中的元素是允许重复的!##########有关列表的基本操作###############定义一个空链表list1=[]list1.appen(1)#在链表中中追加内容#list1:[1]list.append(2)#list1:[1,2]list1.append('A')原创 2017-08-01 11:17:19 · 2419 阅读 · 0 评论 -
统计自然语言处理1 ------绪论(一)
1.1基本概念 当我们从事任何一项研究的时候,总是要关注两方面的问题:一是是什么,为什么?二是做什么,怎么做?这恰恰是科学与技术紧密相关的两个方面。自然语言处理既是一项技术,又是一门学科。 信息的主要载体—-语言。语言的两种形式为文字和声音。文字和声音作为语言的两个不同形式的载体,所承载的信息占整个信息组成的70%以上(文字:70%,图像:20%,其他:10%)。语言学 语言学是指对语言的原创 2017-08-11 10:06:11 · 2589 阅读 · 2 评论 -
统计自然语言处理1-----绪论(二)
接着上一节的内容继续阐述。1.5 自然语言理解面临的困难1、自然语言中大量存在的歧义(ambiguity)现象。(a) 结构歧义 歧义组合数我们称之为开塔兰数(Catalan Numbers,记作Cn) : (a) 语义歧义例子:2、自然语言中存在未知的语言现象。(a) 新的词汇 例如: “非典”、专业术语、外来语、人名等(b) 新的含义 例如:窗口、奔腾、农民等(c) 新的用法和语句结原创 2017-08-12 15:21:56 · 773 阅读 · 0 评论 -
统计自然语言处理2----数学基础(一)
前言 要想从本质上深入理解自然语言处理、机器学习以及深度学习等算法,就需要你有强硬的数学基础,从原理到实践,知根知底。在此,我们只是一个入门级,所以我们暂且掌握以下数学基础,就ok。概率论基础概率 概率论是从随机试验中的事件到实数域的函数,用以表示事件发生的可能性。如果用P(A)作为事件A的概率,是实验的样本空间,则概率函数必须满足如下公理: 公理1: 公理2: 公理3:如果对任意的i和j原创 2017-08-14 15:14:17 · 1234 阅读 · 0 评论 -
统计自然语言处理2----数学基础(二)
前言 在上一部分我们介绍了概率论的基础,本节我们介绍一些信息论里面需要了解的基本概念。 信息论基础熵(entropy) 香农(Claude Elwood Shannon)于1940年获得麻省理工学院数学博士学位和电子工程硕士学位后,于1941年加入了贝尔实验室数学部,并在那里工作了15年。1948年6月和10月,由贝尔实验室出版的《贝尔系统技术》杂志连载了香农博士的文章《通讯的数学原理》,原创 2017-08-14 17:26:28 · 703 阅读 · 0 评论 -
隐马尔可夫模型,最大熵模型,最大熵马尔可夫模型与条件随机场的比较
前言隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型 (Maximum Entropy Model),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。ME 首先出现,HMM其次,MEMM再次,CRF最后。HMM模型是对原创 2017-10-28 12:08:42 · 4526 阅读 · 0 评论 -
Perl 安装
前言在上一篇博文中,我们介绍了CRF++在Windows下的使用,最后一部分是测评,在测评中提到过,要使用ConLL(Conference on Computational Natural Language Learning,CoNLL)测评,我们需要安装perl,所以,本文主要介绍如何安装Perl.支持的平台Perl可以在很多平台上运行,例如:Unix (Solaris, Linux, Free原创 2017-11-01 16:47:20 · 8124 阅读 · 5 评论 -
中文文本分类
0 前言最近公司需要,需要实现一个简单的文本分类算法,在此做个笔记,文章内容可能包含他人的东西,在此表示感谢!!!1 流程文本预处理特征选择分类器的选择训练模型检验模型2、 文本预处理首先需要导入文件,导入文件的类型可以根据自己的需要自行选择,在此提示一点:如果是在Windows上,需要对输入的文件路径进行编码的转化。#方式一path=Unicode(path,'utf-8')#方式原创 2016-12-10 21:55:39 · 2108 阅读 · 0 评论