miner_zhu的博客

学习学习再学习!

正则之PCRE库

目录   什么是PCRE库? 1.PCRE库简介 2.PCRE正则基础知识 PCRE库的安装(linux) PCRE库的使用 1.PCRE库的函数接口 2.PCRE使用过程 3.PCRE实例 参考文章 什么是PCRE库? 1.PCRE库简介 PCRE(Perl Compa...

2018-10-19 21:20:47

阅读数 185

评论数 0

NLP之CRF++安装及使用

  目录   一、CRF简介 CRF VS 词典统计分词 CRF VS HMM,MEMM CRF分词原理 二、CRF++工具包 CRF++的安装(linux) CRF++的使用 一、CRF简介 Conditional Random Field:条件随机场,一种机器学习技术(模...

2018-10-18 21:03:03

阅读数 1222

评论数 0

NLP之人机对话系统

人机对话系统 人机对话系统又称口语对话系统(spoken dialogue system)。一个典型的人机对话系统主要包括如下6个技术模块:①语音识别器(speech recognizer);②语言解析器(language parser);③问题求解(problem resolving)模块;④...

2018-10-11 22:15:32

阅读数 2390

评论数 0

NLP之开放式信息抽取

从广义上讲,信息抽取处理的对象可以是文本、图像、语音和视频等多种媒体,但随着文本信息抽取研究的快速发展,信息抽取往往被用来专指文本信息抽取(text information extraction)。 文本信息抽取指的是这样一类文本处理技术,它从自然语言文本中自动抽取指定类型的实体(entity)...

2018-09-27 15:15:31

阅读数 3391

评论数 0

NLP之文章摘要

文本自动文摘(automatic summarization/abstracting)是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。 按照不同的标准自动文摘可以划分为不同的类型。 如果根据文摘的功能划分,可以分为指示型文摘(indicative)、报道型文摘(informative...

2018-09-27 10:48:13

阅读数 1106

评论数 3

NLP情感分析之情感分类

情感分析与情感分类 情感分析(sentiment analysis)是近年来国内外研究的热点,其任务是帮助用户快速获取、整理和分析相关评价信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理。 情感分析包含较多的任务,如情感分类(sentiment classification)、观点抽...

2018-09-26 15:38:35

阅读数 5675

评论数 0

NLP之文本分类

文本自动分类简称文本分类(text categorization),是模式识别与自然语言处理密切结合的研究课题。传统的文本分类是基于文本内容的,研究如何将文本自动划分成政治的、经济的、军事的、体育的、娱乐的等各种类型。 目录 文本表示 文本向量化 向量的相似性度量(similarity) ...

2018-09-26 15:08:07

阅读数 3050

评论数 0

NLP之中文命名实体识别

在MUC-6中首次使用了命名实体(named entity)这一术语,由于当时关注的焦点是信息抽取(information extraction)问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织机构名、时间和数字表达(包括时间、日期、货币量和百分数等)是...

2018-09-25 18:45:47

阅读数 6096

评论数 0

NLP之汉语自动分词

汉语自动分词就是让计算机识别出汉语文本中的‘词’,在词与词之间自动加上空格或其他边界标记。 目录 一.汉语自动分词中的基本问题 1.1分词规范问题 2.2歧义切分问题 3.未登录词问题 二.汉语分词方法 1.N-最短路径方法 2.基于词的n元语法模型的分词方法 3.由字构词的汉语...

2018-09-21 21:47:45

阅读数 860

评论数 0

NLP之条件随机场

条件随机场(conditional random fields, CRFs)由J. Lafferty等人(2001)提出,近几年来在自然语言处理和图像处理等领域中得到了广泛的应用。 CRF是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出标识序列Y和观测序列X,条件随机场...

2018-09-19 22:14:22

阅读数 246

评论数 0

NLP之隐马尔可夫模型

马尔可夫模型 在介绍隐马尔可夫模型之前,先来介绍马尔可夫模型。 我们知道,随机过程又称随机函数,是随时间而随机变化的过程。 马尔可夫模型(Markov model)描述了一类重要的随机过程。我们常常需要考察一个随机变量序列,这些随机变量并不是相互独立的,每个随机变量的值依赖于这个序列前面的状态...

2018-09-19 19:19:01

阅读数 458

评论数 0

NLP之文本相似度

相似度 相似度度量(从字面上和语义上两方面来度量):计算个体间相似程度(得到一个分数,通过分数来度量相似度,范围[0,1])     -文本角度(TF-IDF、LCS):这件衣服真好看,这件衣服真难看     -语义角度(协同过滤):真好玩,真有趣     -文本+语义角度(word2vec)...

2018-08-13 11:12:22

阅读数 1731

评论数 0

如何产生好的词向量

词向量、词嵌入(word vector,word embedding)也称分布式表示(distributed representation)。如今词向量已经被广泛应用于各自NLP任务中,研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。但在使用这些工具产生词向量时,不同的训练数据,...

2019-01-04 17:17:24

阅读数 182

评论数 0

命名实体识别(NER)的发展历程

命名实体识别(Named Entity Recognition,NER)简单说就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型。一般我们归为序列标注问题(sequence labeling problem)中的一种。与分类问题相比,序列标注问题中当前的预测标签不仅与当前的输入特征相关,...

2019-01-04 15:39:44

阅读数 842

评论数 0

BiLSTM介绍及中文命名实体识别应用

What-什么是LSTM和BiLSTM? LSTM:全称Long Short-Term Memory,是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。 BiLSTM:Bi-directional Long ...

2019-01-04 11:36:48

阅读数 1926

评论数 0

微软亚研院:NLP趋势展望

趋势热点:值得关注的 NLP 技术 从最近的 NLP 研究中,我们认为有一些技术发展趋势值得关注,这里总结了五个方面: 热点一,预训练神经网络 如何学习更好的预训练的表示,在一段时间内继续成为研究的热点。 通过类似于语言模型的方式来学习词的表示,其用于具体任务的范式得到了广泛应用。这几乎成...

2018-12-21 16:25:54

阅读数 190

评论数 0

周志华:浅谈深度学习

我们都知道直接掀起人工智能热潮的最重要的技术之一,就是深度学习技术。今天,其实深度学习已经有各种各样的应用,到处都是它,不管图像也好,视频也好,声音自然语言处理等等。那么我们问一个问题,什么是深度学习? 深度学习的理论基础尚不清楚 我想大多数人的答案,就是深度学习差不多就等于深度神经网络。有一...

2018-12-20 16:16:02

阅读数 354

评论数 0

特征提取方法简介

one-hot 表示一个词 bag-of-words 表示一段文本 tf-idf 用频率的手段来表征词语的重要性 text-rank 借鉴page-rank来表征词语的权重 从基于SVD纯数学分解词文档矩阵的LSA,到pLSA中用概率手段来表征文档形成过程并将词文档矩阵的求解结果赋予概率含义,再到...

2018-12-18 10:48:03

阅读数 874

评论数 0

trie树(前缀树)

Trie 树, 又称字典树,单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。 Trie 有三种结构: 标准trie (standard trie)、压缩trie、后缀trie(suffix tr...

2018-11-13 10:39:30

阅读数 160

评论数 0

【C++】std::是什么?

#include<iostream> int main() { std::cout<<"我喜欢C++";//输出一句话 std::cout&...

2018-11-07 14:08:15

阅读数 1138

评论数 0

提示
确定要删除当前文章?
取消 删除