自然语言处理(应用)
Soyoger
申明:个人微信公众号:AI技术研习社,公众号ID:ai2club。本博客只是用来学习,并不从事任何商业活动,其内容是自己总结或者来自互联网搜索到的,并没有过多关注版权问题,如有侵权内容,请私信我进行删除,谢谢。本博客内容主要围绕计算机领域热点技术和工作内容,不涉及版权问题,任何人可以查看、转载。
展开
-
自然语言处理-nltk学习(一)
NLTK库安装pip install nltk执行python并下载书籍:[root@centos #] pythonPython 2.7.11 (default, Jan 22 2016, 08:29:18)[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwinType "help", "copyri原创 2017-06-02 17:49:52 · 879 阅读 · 0 评论 -
未来数据领域的珠穆朗玛峰之中文自然语言处理
介绍NLP 作为 AI 技术领域中重要的分支,随着其技术应用范围不断扩大,在数据处理领域占有越来越重要的地位。本达人课,作为中文自然语言处理边学边实战的入门级教程,以小数据量的“简易版”实例,通过实战带大家快速掌握 NLP 在中文方面开发的基本能力。本课程共包含 18 节。各小节之间并没有紧密耦合,但是整个内容还是遵循一定的开发流程。比如,按照中文语料处理的过程,在获取到语料之后开始分词,分词之后...原创 2018-06-14 12:49:03 · 1745 阅读 · 0 评论 -
自然语言处理之语言模型(LM)
经过几天对nlp的理解,接下来我们说说语言模型,下面还是以PPT方式给出。一、统计语言模型1、什么是统计语言模型?一个语言模型通常构建为字符串s的概率分布p(s),这里的p(s)实际上反映的是s作为一个句子出现的概率。这里的概率指的是组成字符串的这个组合,在训练语料中出现的似然,与句子是否合乎语法无关。假设训练语料来自于人类的语言,那么可以认为这个概率是的是一句话是否是人话的概率。2、怎么建立统计...原创 2018-04-29 17:06:02 · 28470 阅读 · 4 评论 -
自然语言处理应用和过程的一些理解
2018年,大家知道最火的是什么吗?对,是区块链,然而,目前区块链主要的内容集中在币圈,可能做金融的同学比较关注和喜欢,但是在一般电商、行业互联网中,我们刚刚经历了大数据、ML、DL的洗礼,这些技术很多还没有完全铺展开来,所以,基于这点,在2018年,我发现一个现象,就是随着各大公司、第三方对关系数据的整合和技术成熟之后,未来到2020年,我们做数据的大部分工作可能在处理非结构化数据,比如大量历史...原创 2018-04-25 13:26:10 · 3475 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(三):自动摘要
今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量阅读时间。由人完成的摘要叫"人工摘要",由机器完成的就叫"自动摘要"。许多网站都需要它,比如论文网站、新闻网站、搜索引擎等等。2007年,美国学者的论文《A Survey on Automatic Text Su转载 2017-12-06 21:44:29 · 457 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子A:我喜欢看电视,不喜欢看电影。 句子B转载 2017-12-06 21:42:49 · 420 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分转载 2017-12-06 21:30:58 · 607 阅读 · 0 评论 -
Frequency 频率统计
import nltkfrom nltk import FreqDist# 做个词库先corpus = 'this is my sentence ' \'this is my life ' \'this is the day'# 随便便tokenize⼀一下# 显然, 正如上⽂文提到,# 这⾥里里可以根据需要做任何的preprocessing:# stopwor原创 2017-11-27 16:46:37 · 2795 阅读 · 0 评论 -
NLTK完成简单的情感分析
# -*- coding: utf-8 -*-"""Created on Fri Oct 20 19:16:41 2017@author: ESRI"""from nltk.classify import NaiveBayesClassifier# 随手造点训练集s1 = 'this is a good book's2 = 'this is a awes原创 2017-11-27 16:40:43 · 10485 阅读 · 0 评论 -
python中文分词jieba总结
1. GitHub:https://github.com/fxsjy/jieba2.分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度原创 2017-12-05 16:05:58 · 1848 阅读 · 0 评论 -
Gensim Word2vec 使用教程
本文主要基于Radim Rehurek的Word2vec Tutorial.**准备输入**Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表代码块例如:>>> # import modules & set up logging>>> import gensim, logging>>> logging.basicConfig(format='原创 2017-12-03 16:17:59 · 1747 阅读 · 0 评论 -
自动化对语料做词性标注
全人工对语料做词性标注就像蚂蚁一样忙忙碌碌,是非常耗费声明的,如果有一个机器能够完全自动化地,给它一篇语料,它迅速给你一片标注,这样才甚好,本节就来讨论一下怎么样能无需动手对语料做自动化的词性标注。先插入个tips:英文词干提取器>>> import nltk>>> porter = nltk.PorterStemmer()>>> porter.stem('lying')u'原创 2017-06-27 18:26:43 · 1941 阅读 · 0 评论 -
语料与词汇资源
当代自然语言处理都是基于统计的,统计自然需要很多样本,因此语料和词汇资源是必不可少的,本节介绍语料和词汇资源的重要性和获取方式NLTK语料库NLTK包含多种语料库,举一个例子:Gutenberg语料库,执行:nltk.corpus.gutenberg.fileids()返回Gutenberg语料库的文件标识符[u'austen-emma.txt', u'austen-p原创 2017-06-27 18:17:42 · 717 阅读 · 0 评论 -
自然语言处理-nltk学习(二)
nltk里面重要的函数一、similar用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中。text1.similar("monstrous")查询出了text1中与monstrous相关的所有词语:二、common_contexts用来识别2个关键词相似的词语。text2.common_contexts(["monstro原创 2017-06-02 17:54:47 · 588 阅读 · 0 评论 -
中文自然语言处理可能是 NLP 中最难的?
现如今,在更多情况下,我们通过传感器和字节来与机器获得交流,而不是依靠交换情感,那如何让超级智能机器能够和人类正常交流沟通呢?在人工智能背景技术下,自然语言处理(NLP)技术被越来越多的人看好,并受到重视。其中,以微软小冰为代表的聊天机器人,如今却成了网红,迅速刷爆了微信和朋友圈,一个17岁纯情少女懂礼貌、有素质和会作诗,众多网友对她可是情有独钟!下面这幅图是小冰的一个简介。那什么是 NLP?NL...原创 2018-06-22 13:22:21 · 44035 阅读 · 12 评论