miner_zhu-CSDN博客

原创正则之PCRE库

目录什么是PCRE库？1.PCRE库简介2.PCRE正则基础知识PCRE库的安装（linux）PCRE库的使用1.PCRE库的函数接口2.PCRE使用过程3.PCRE实例参考文章什么是PCRE库？1.PCRE库简介PCRE(Perl Compatible Regular Expressions）：perl语言兼容正则表达式。PCRE是一个用C语...

2018-10-19 21:20:47 3504

原创 NLP之CRF++安装及使用

目录一、CRF简介CRF VS 词典统计分词CRF VS HMM，MEMMCRF分词原理二、CRF++工具包CRF++的安装（linux）CRF++的使用一、CRF简介Conditional Random Field：条件随机场，一种机器学习技术（模型）CRF由John Lafferty最早用于NLP技术领域，其在NLP技术领域中主要用于文本标注...

2018-10-18 21:03:03 14250

人机对话系统人机对话系统又称口语对话系统（spoken dialogue system）。一个典型的人机对话系统主要包括如下6个技术模块：①语音识别器（speech recognizer）；②语言解析器（language parser）；③问题求解（problem resolving）模块；④语言生成器（language generator）；⑤对话管理（dialogue management...

2018-10-11 22:15:32 10351

原创 NLP之文章摘要

文本自动文摘（automatic summarization/abstracting）是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。按照不同的标准自动文摘可以划分为不同的类型。如果根据文摘的功能划分，可以分为指示型文摘（indicative）、报道型文摘（informative）和评论型文摘（evaluative）。根据输入文本的数量划分，自动文摘可以分为单文档摘要和多文档摘...

2018-09-27 10:48:13 3710

原创 NLP情感分析之情感分类

情感分析与情感分类情感分析（sentiment analysis）是近年来国内外研究的热点，其任务是帮助用户快速获取、整理和分析相关评价信息，对带有情感色彩的主观性文本进行分析、处理、归纳和推理。情感分析包含较多的任务，如情感分类（sentiment classification）、观点抽取（opinion extraction）、观点问答和观点摘要等。因此很难简单地将其划归为某一个领域，...

2018-09-26 15:38:35 33319 3

原创 NLP之文本分类

文本自动分类简称文本分类（text categorization），是模式识别与自然语言处理密切结合的研究课题。传统的文本分类是基于文本内容的，研究如何将文本自动划分成政治的、经济的、军事的、体育的、娱乐的等各种类型。目录文本表示文本向量化向量的相似性度量（similarity）文本特征选择方法特征权重计算方法分类器设计文本分类评测指标文本分类是在预定义的分类体...

2018-09-26 15:08:07 20843 1

原创 NLP之中文命名实体识别

在MUC-6中首次使用了命名实体（named entity）这一术语，由于当时关注的焦点是信息抽取（information extraction）问题，即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息，而人名、地名、组织机构名、时间和数字表达（包括时间、日期、货币量和百分数等）是结构化信息的关键内容。命名实体识别(Named EntitiesRecognition，NER)，...

2018-09-25 18:45:47 52932 2

原创 NLP之汉语自动分词

汉语自动分词就是让计算机识别出汉语文本中的‘词’，在词与词之间自动加上空格或其他边界标记。目录一.汉语自动分词中的基本问题1.1分词规范问题2.2歧义切分问题3.未登录词问题二.汉语分词方法1.N-最短路径方法2.基于词的n元语法模型的分词方法3.由字构词的汉语分词方法4.基于词感知机算法的汉语分词方法5.基于字的生成式模型和区分式模型相结合的汉语分词方...

2018-09-21 21:47:45 7091

原创 NLP之条件随机场

条件随机场（conditional random fields, CRFs）由J. Lafferty等人（2001）提出，近几年来在自然语言处理和图像处理等领域中得到了广泛的应用。CRF是用来标注和划分序列结构数据的概率化结构模型。言下之意，就是对于给定的输出标识序列Y和观测序列X，条件随机场通过定义条件概率P（Y|X），而不是联合概率分布P（X，Y）来描述模型。 CRF也可以看作一个无向图模...

2018-09-19 22:14:22 1081

原创 NLP之隐马尔可夫模型

马尔可夫模型在介绍隐马尔可夫模型之前，先来介绍马尔可夫模型。我们知道，随机过程又称随机函数，是随时间而随机变化的过程。马尔可夫模型（Markov model）描述了一类重要的随机过程。我们常常需要考察一个随机变量序列，这些随机变量并不是相互独立的，每个随机变量的值依赖于这个序列前面的状态。如果一个系统有N个有限状态S＝{s1，s2，…，sN}，那么随着时间的推移，该系统将从某一状态转移到...

2018-09-19 19:19:01 2378

原创 NLP之文本相似度

相似度相似度度量(从字面上和语义上两方面来度量)：计算个体间相似程度（得到一个分数，通过分数来度量相似度，范围[0,1]） -文本角度（TF-IDF、LCS）：这件衣服真好看，这件衣服真难看 -语义角度（协同过滤）：真好玩，真有趣 -文本+语义角度（word2vec）余弦相似度先介绍文本相似中最常用最简单的方法：余弦相似度。 – 一个向量空间中两个向...

2018-08-13 11:12:22 6122

转载如何产生好的词向量

词向量、词嵌入（word vector，word embedding）也称分布式表示（distributed representation）。如今词向量已经被广泛应用于各自NLP任务中，研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。但在使用这些工具产生词向量时，不同的训练数据，参数，模型等都会对产生的词向量有所影响，那么如何产生好的词向量对于工程来说很重要。词的表示方法...

2019-01-04 17:17:24 1052 1

转载命名实体识别（NER）的发展历程

命名实体识别（Named Entity Recognition，NER）简单说就是从一段自然语言文本中找出相关实体，并标注出其位置以及类型。一般我们归为序列标注问题（sequence labeling problem）中的一种。与分类问题相比，序列标注问题中当前的预测标签不仅与当前的输入特征相关，还与之前的预测标签相关，即预测标签序列之间是有强相互依赖关系的。例如，使用BIO标签进行NER时，正确...

2019-01-04 15:39:44 7294

原创 BiLSTM介绍及中文命名实体识别应用

What-什么是LSTM和BiLSTM？LSTM：全称Long Short-Term Memory，是RNN（Recurrent Neural Network）的一种。LSTM由于其设计的特点，非常适合用于对时序数据的建模，如文本数据。BiLSTM：Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。可以看出其很适合...

2019-01-04 11:36:48 30849 1

转载微软亚研院：NLP趋势展望

趋势热点：值得关注的 NLP 技术从最近的 NLP 研究中，我们认为有一些技术发展趋势值得关注，这里总结了五个方面：热点一，预训练神经网络如何学习更好的预训练的表示，在一段时间内继续成为研究的热点。通过类似于语言模型的方式来学习词的表示，其用于具体任务的范式得到了广泛应用。这几乎成为自然语言处理的标配。这个范式的一个不足是词表示缺少上下文，对上下文进行建模依然完全依赖于有限的标注数...

2018-12-21 16:25:54 765

转载周志华：浅谈深度学习

我们都知道直接掀起人工智能热潮的最重要的技术之一，就是深度学习技术。今天，其实深度学习已经有各种各样的应用，到处都是它，不管图像也好，视频也好，声音自然语言处理等等。那么我们问一个问题，什么是深度学习？深度学习的理论基础尚不清楚我想大多数人的答案，就是深度学习差不多就等于深度神经网络。有一个非常著名的学会叫SIAM，是国际工业与应用数学学会，他们有一个旗舰的报纸叫SIAM news。在去年...

2018-12-20 16:16:02 1804

转载特征提取方法简介

one-hot 表示一个词bag-of-words 表示一段文本tf-idf 用频率的手段来表征词语的重要性text-rank 借鉴page-rank来表征词语的权重从基于SVD纯数学分解词文档矩阵的LSA，到pLSA中用概率手段来表征文档形成过程并将词文档矩阵的求解结果赋予概率含义，再到LDA中引入两个共轭分布从而完美引入先验1. one-hot1.1 one-hot编码　　...

2018-12-18 10:48:03 15485

转载 trie树（前缀树）

Trie 树，又称字典树，单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。Trie 有三种结构：标准trie (standard trie)、压缩trie、后缀trie(suffix trie) 。这里只将前两种。1. 标准Trie (standard trie)标准 Trie树的...

2018-11-13 10:39:30 1414

转载【Ｃ＋＋】std：：是什么？

#include<iostream>int main(){ std::cout<<"我喜欢C++";//输出一句话 std::cout<<std::endl;//换行 return 0;}1.std是什么？ std:: 是个名称空间标示符，C++标准库中的函数或者对象都是在命名空间std中定义的，所以...

2018-11-07 14:08:15 3232

转载 c++中冒号（:）和双冒号（::）的用法

1.冒号（:）用法（1）表示机构内位域的定义（即该变量占几个bit空间）typedef struct _XXX{unsigned char a:4;unsigned char c;} ; XXX（2）构造函数后面的冒号起分割作用，是类给成员变量赋值的方法，初始化列表，更适用于成员变量的常量const型。struct _XXX{_XXX() : y(0xc0) ...

2018-11-07 14:03:24 307

转载 c++基础笔记

C++ 基本语法C++ 程序可以定义为对象的集合，这些对象通过调用彼此的方法进行交互。现在让我们简要地看一下什么是类、对象，方法、即时变量。对象 - 对象具有状态和行为。例如：一只狗的状态 - 颜色、名称、品种，行为 - 摇动、叫唤、吃。对象是类的实例。类 - 类可以定义为描述对象行为/状态的模板/蓝图。方法 - 从基本上说，一个方法表示一种行为。一个类可以包含多个方法。可以在方法...

2018-11-07 11:16:50 606

转载 C++ vector 容器

一、什么是vector？向量（Vector）是一个封装了动态大小数组的顺序容器（Sequence Container）。跟任意其它类型容器一样，它能够存放各种类型的对象。可以简单的认为，向量是一个能够存放任意类型的动态数组。二、容器特性1.顺序序列顺序容器中的元素按照严格的线性顺序排序。可以通过元素在序列中的位置访问对应的元素。2.动态数组支持对序列中的任意元素进行快速直接...

2018-11-07 11:16:05 288

转载 linux中shell教程

shell介绍Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程序设计语言。Shell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。Shell 脚本（shell script），是一种为 shell 编写的脚本程序。业界所说的 shell 通常都是指 shell 脚本，但读者朋友要知...

2018-10-30 16:27:00 623

转载 linux中vim用法

Vim是从 vi 发展出来的一个文本编辑器。代码补完、编译及错误跳转等方便编程的功能特别丰富，可以说是程序开发者的一项很好用的工具。vi/vim 按键说明除了上面简易范例的 i, Esc, :wq 之外，其实 vim 还有非常多的按键可以使用。第一部份：一般模式可用的光标移动、复制粘贴、搜索替换等移动光标的方法 h 或向左箭头键(←) 光标向左移动一个字符 j ...

2018-10-30 14:26:40 315

原创 NLP之jieba分词原理简析

一、jieba介绍jieba库是一个简单实用的中文自然语言处理分词库。jieba分词属于概率语言模型分词。概率语言模型分词的任务是：在全切分所得的所有结果中求某个切分方案S，使得P(S)最大。jieba支持三种分词模式：全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；精确模式，试图将句子最精确地切开，适合文本分析；搜索引擎模式，在精确模式的基...

2018-10-21 22:56:09 20832

原创 Makefile简单总结

目录一、引入二、Makefile简介三、Makefile基本结构四、简单的Makefile实现参考文章一、引入比如我们需要在linux中运行一个test.c文件，shell命令的常见方法是：1.进入所在目录，编译文件中已有的c文件test.c.gcc test.c -o test2.编译完成，生成了名为test的可执行文件，直接运行./test...

2018-10-21 21:23:58 374

原创 linux 基本操作随笔

一、创建/删除文件创建：创建一个名为aa的文件夹：mkdir aa递归创建一个层级目录： mkdir aa/bb/cc创建文件：touch xx.html （已存在会更新时间）删除：删除空目录: rmdir删除xx文件夹以及其下所有内容：rm -rf /var/log/xx删除文件access.log： rm -f /hte/access.log查看目录层级情况：...

2018-10-18 19:05:33 278

原创 linux 下安装 tar.gz包

1）解压tar.gz包　“tar –xvzf 软件包名”，就可以完成解压与解包工作。　“tar -zxvf 软件包名.tar.gz -C /home/hao” 解压到指定的目录下（注意：-C为大写）2）进入解压后的文件目录下执行“./configure”命令为编译做好准备　“./configure --prefix=/opt”，表示安装到/opt目录3）执行“make...

2018-10-18 16:56:32 4401

原创费米估算问题

据说，有一次费米在芝加哥大学的课堂上提出了一个古怪的问题：芝加哥市一共有多少位钢琴调音师？见学生们一片茫然，费米提示把这个问题“分解成一些便于操作的小问题，然后鼓起勇气作猜测和假设”. 芝加哥有多少居民？可靠的估算是300万；平均每个家庭有多少人？4人；多少家庭有钢琴？大概三分之一，那么全市大约就有25万架钢琴；一架钢琴隔多长时间需要调音？平均5年，那么芝加哥平均每年有5万架次的钢琴需要调音；每个...

2018-09-28 16:41:36 6180

原创 NLP之情感信息抽取

情感信息抽取是一种关于细粒度文本的情感分析技术，旨在抽取情感文本中有价值的情感信息。Liu（2007）将情感信息定义为一个5元组（O，F，SO，H，T），其中，O表示评论实体，F表示评价对象，SO表示评价词语，H表示观点持有者，T表示评价的时间。情感信息抽取研究的主要问题集中在两个方面：抽取观点持有者（opinion holder）和抽取评价对象（opinion target）。*抽...

2018-09-27 15:26:42 6474 2

原创 NLP之最大熵模型

最大熵模型的基本原理是：在只掌握关于未知分布的部分信息的情况下，符合已知知识的概率分布可能有多个，但使熵值最大的概率分布最真实地反映了事件的分布情况，因为熵定义了随机变量的不确定性，当熵最大时，随机变量最不确定，最难准确地预测其行为。也就是说，在已知部分信息的前提下，关于未知分布最合理的推断应该是符合已知信息最不确定或最大随机的推断。最大熵模型参数训练的任务就是选取有效的特征fi及其权重λi。...

2018-09-19 21:46:41 1794

原创 NLP之贝叶斯网络

贝叶斯网络贝叶斯网络又称为信度网络或信念网络（belief networks），是一种基于概率推理的数学模型，其理论基础是贝叶斯公式。贝叶斯网络的概念最初是由Judea Pearl于1985年提出来的，其目的是通过概率推理处理不确定性和不完整性问题。形式上，一个贝叶斯网络就是一个有向无环图（directed acyclic graph, DAG），结点表示随机变量，可以是可观测量、隐含变量...

2018-09-19 19:17:44 1913

转载目前自然语言处理的实际应用方法总结

自然语言处理的方法分词分词的任务定义为：输入一个句子，输出一个词语序列的过程。如将「严守一把手机关了。」输出为「严守一/把/手机/关/了。」目前的两种主流方法包括基于离散特征的 CRF 和 BILSTM-CRF。挑战包括交叉歧义、新词识别、领域移植、多源异构数据融合及多粒度分词等。命名实体现在的主流方法包括：1. 规则系统2. 基于机器学习的学习系统目前的挑战包...

2018-09-19 16:22:54 5555

转载《统计自然语言处理》知识结构总结

一、自然语言处理概述 1）自然语言处理：利用计算机为工具，对书面实行或者口头形式进行各种各样的处理和加工的技术，是研究人与人交际中以及人与计算机交际中的演员问题的一门学科，是人工智能的主要内容。 2）自然语言处理是研究语言能力和语言应用的模型，建立计算机（算法）框架来实现这样的语言模型，并完善、评测、最终用于设计各种实用系...

2018-09-19 16:12:56 1063

原创 NLP之概率图模型

概率图模型概率图模型（probabilistic graphical models）在概率模型的基础上，使用了基于图的方法来表示概率分布（或者概率密度、密度函数），是一种通用化的不确定性知识表示和处理方法。在概率图模型的表达中，结点表示变量，结点之间直接相连的边表示相应变量之间的概率关系。当概率分布P被表示成概率图模型之后，可以用来回答与概率分布P有关的问题，如计算条件概率P（Y|E＝e）：在...

2018-09-18 16:54:51 1477

原创 NLP之语言模型

语言模型（language model, LM）在自然语言处理中占有重要的地位，尤其在基于统计模型的语音识别、机器翻译、汉语自动分词和句法分析等相关研究中得到了广泛应用。目前主要采用的是n元语法模型（n-gram model），这种模型构建简单、直接，但同时也因为数据缺乏而必须采取平滑（smoothing）算法。接下来主要介绍n元语法的基本概念和几种常用的数据平滑方法。目录n元语法...

2018-09-16 21:41:56 13900 2

原创 NLP之自然语言处理简述

什么是自然语言处理？自然语言处理是研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力（linguistic competence）和语言应用（linguistic performance）的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。根据这个定义，自...

2018-09-15 17:04:06 11465 1

转载 NLP之自然语言处理入门方法

自然语言处理（简称NLP），是研究计算机处理人类语言的一门技术，包括：1.句法语义分析：对于给定的句子，进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。2.信息抽取：从给定文本中抽取重要的信息，比如，时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽...

2018-09-15 15:25:10 819 1

原创 linux中的crontab定时执行

环境ubuntu定时实现cron不是自动运行的，所以可以sudo service cron start查看cron是否运行 ps -ef | grep cron1：编辑crontab文件，用来存放你要执行的命令sudo crontab -e2：第一次用这个命令，会让你选择文本编辑器（输入数字选择）我选的是vim 3：添加执行命令0 12 * * * /...

2018-09-13 15:49:48 291

原创 ubuntu安装及使用笔记

安装ubuntu环境：vmware14、ubuntu16.04安装anaconda环境：1.官网下载：https://www.anaconda.com/download/2.进入安装包所在目录 cd XX3.bash Anaconda3-5.2.0-Linux-x86_64.sh4.根据提示输入完成安装5.生效.bashrc文件安装MongoDB：h...

2018-09-03 21:25:15 431

django 1.11版官方文档（英文）

Django是一个开放源代码的Web应用框架，由Python写成。采用了MVC的框架模式，即模型M，视图V和控制器C。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的，即是CMS（内容管理系统）软件

2018-07-23

统计自然语言处理（第二版）宗成庆著带书签

统计自然语言处理第二版宗成庆 pdf是一本经过第二次更新的统计自然语言方面的教材。自然语言作为人类思想情感最基本，最直接，最方便的表达工具，无时无刻不充斥在人类社会的各个角落。小编推荐的这本统计自然语言处理全面介绍了统计自然语言处理的基本概念、理论方法和新研究进展，内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等，既有对基础知识和理论模型的介绍，也有对相关问题的研究背景、实现方法和技术现状的详细阐述。

2018-09-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

django 1.11版官方文档（英文）

统计自然语言处理（第二版）宗成庆著 带书签

空空如也

统计自然语言处理（第二版）宗成庆著带书签