Natural Language Processing
文章平均质量分 91
Lawe
有问题可以直接评论,欢迎指正
展开
-
【Natural Language Processing】跨语言情感分析(NLP&CC 2013)
一、任务介绍 本任务是NLP&CC 2013的跨语言情感分析,主要是在英文资源的前提下,对测试集内的每条中文评论进行倾向性分类。 本任务的所有数据均由主办方提供,主要包含三部分: ① 英文标注数据和英文情感词典; ② 中文未标注语料; ③ 中文测试集。 数据均采用XML格式, UTF-原创 2017-05-02 15:21:39 · 5663 阅读 · 0 评论 -
【Natural Language Processing】词汇相似度(Word similarity)计算
以下词汇相似度计算方法的实现是基于WordSimilarity-353进行,即根据相关方法计算得到给定词汇的相似度后,再使用斯皮尔曼等级相关判定来计算所得的词汇相似度与已人工标注好的相似度之间的相关性。一、基于语义词典的方法 常用的语义词典是WordNet,一般直接在Python里面使用,即通过pip install nltk来安装NLTK之后,再下载nltk-data放在相原创 2017-04-14 23:09:35 · 5823 阅读 · 1 评论 -
【Natural Language Processing】TF-IDF及其Python实现
一、TF-IDF简介1.1 TF-IDF概念 TF-IDF(term frequency-inverse document frequency):一种用于信息检索与数据挖掘的常用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 主要思原创 2017-04-24 01:55:08 · 1856 阅读 · 0 评论 -
【Natural Language Processing】基于CRF++的中文分词
一、任务简介 中文分词是中文信息处理领域中的最重要的任务,它对于智能信息处理技术具有重要的意义,当前的各种汉语分词技术都可以取得不错的结果。本任务做的是繁体中文分词,将训练语料的30%作为验证集,70%作为训练集,按通常的 P/R/F 三个指标进行评测,最后用全部训练数据进行训练,用给出的测试数据进行测试,并将结果提交。本次任务使用条件随机场模型(CRF)进行实验。2原创 2017-07-11 20:37:06 · 811 阅读 · 0 评论 -
【Natural Language Processing】seq2seq学习笔记
seq2seq可以看成是一个翻译模型,即通过一个sequence转换为另一个sequence,也可以看做是对联的生成,即通过上联来产生下联,其主要是使用两个RNN(其实是LSTM,具体可看:LSTM(Long Short-Term Memory)学习),一个进行Encoder,另一个进行Decoder,即Encoder-Decoder,其可用在NLG(Nature Language Gener原创 2017-07-18 11:52:22 · 1565 阅读 · 0 评论 -
【Natural Language Processing】社区问答系统中的comment分类
一、任务要求和环境 本次实验是SemEval-2015 Task 3英语部分的子任务A中,根据社区问答系统中的每一组问题,其中包含的数据有如发布日期,作者的Id,至少一个评论等内容;我们需要根据问题和参与该系统的评论相关性将评论分类为好的(Good),不好的(Bad)或是潜在有用的(Potential)。 Anaconda2-4.3.1(Python2.7),原创 2017-04-14 11:11:17 · 959 阅读 · 0 评论 -
【Natural Language Processing】语言模型(Language Modeling)
本文主要介绍基于马尔科夫假设的N-gram语言模型,以及包括常用的平滑技术等;语言模型可以应用在机器翻译、拼写纠错、语音识别、自动文摘和问答系统等领域。原创 2017-09-24 16:17:19 · 966 阅读 · 0 评论 -
【Natural Language Processing】语言模型训练工具Srilm的安装及使用简介
实习做了一段时间的语言模型,使用到了Srilm这个工具,简单做一下记录,这个是一个统计和分析语言模型的工具,据说年龄很大了,总之它可以很方便的统计语料的n-gram,以及构建基于n-gram的语言模型。原创 2017-11-11 18:18:38 · 1882 阅读 · 0 评论