NLP(自然语言处理)
文章平均质量分 63
风之清扬
拥抱生活,拥抱创新,每天学点新知识,积少成多,努力进取!
展开
-
tensoflow练习6:RNN应用--生成诗词
RNN是一种非常强大的神经网络模型,它的输入输出都是一个向量序列。RNN就是为了序列数据建模而产生的,广泛的应用在视频、图像以及文本序列中。这里我们将介绍一个简单的RNN应用实例–RNN生成古诗词。 数据集:poetry.txt 1.训练文件 train.py# -*- coding: utf-8 -*-import collectionsimport tensorflow as tfim原创 2017-08-27 19:04:47 · 2373 阅读 · 6 评论 -
根据所给文档生成字典
在自然语言处理任务中,经常会对文本进行预处理。这种操作中有一部分十分重要,即建立词典。下面将给出一段讲解的python代码。# 生成词汇表文件def gen_vocabulary_file(input_file, output_file): vocabulary = {} with open(input_file) as f: counter = 0原创 2017-03-04 15:31:49 · 2079 阅读 · 0 评论 -
python自然语言处理(一)NLTK初步使用
NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。 一 nltk安装教程 首先,保证已经安装成功python。然后终端输入命令:pip install nltk;安装完成后,输入import nltk了,然后输入nltk.download(),这样就可以打开一个NLTK Downloade原创 2017-01-06 10:26:49 · 10044 阅读 · 1 评论 -
TensorFlow练习1: 对评论进行分类
本帖展示怎么使用TensorFlow实现文本的简单分类,判断评论是正面的还是负面的。 使用的数据集neg.txt:5331条负面电影评论(http://blog.topspeedsnail.com/wp-content/uploads/2016/11/neg.txt)pos.txt:5331条正面电影评论 (http://blog.topspeedsnail.com/wp转载 2016-12-27 15:10:05 · 4837 阅读 · 0 评论 -
利用tensorflow制作一个简单的聊天机器人
现在很多卖货公司都使用聊天机器人充当客服人员,许多科技巨头也纷纷推出各自的聊天助手,如苹果Siri、Google Now、Amazon Alexa、微软小冰等等。前不久有一个视频比较了Google Now和Siri 哪个更智能,貌似Google Now更智能。 本帖使用TensorFlow制作一个简单的聊天机器人。这个聊天机器人使用中文对话数据集进行训练(使用什么数据转载 2016-12-22 16:22:12 · 16963 阅读 · 27 评论 -
Windows环境下安装Tensorflow
好消息,Google开源的Tensorflow框架终于可以支持Windows平台了!这是对广大windows系统用户是多么美妙的一件事!下面讲解如何安装Tensorflow(Windows版)。 首先,你得先安装python;这里我直接使用的是Anaconda,这就省得自己再去安装好多包。 其次,打开控制台命令窗口:输入pip install tensorflow,原创 2016-12-26 19:59:20 · 9372 阅读 · 2 评论 -
Python中文分词组件
1.下载mecab-chinesedic-binary,放在MeCab bin目录下,具体参考:详细详细可参考《用MeCab打造一套实用的中文分词系统》cmd运行命令:mecab -d mecab-chinesedic-binary wakati wiki.zh.text.jian -o wiki.zh.text.jian.seg -b 10000000 其中,wiki.zh.text.j原创 2016-09-27 21:14:53 · 786 阅读 · 0 评论 -
以Attention Model为例谈谈两种研究创新模式
各位观众朋友好,也许此刻您刚打开电梯…….读这一篇之前,请您最好先拜读一下本篇的前传:文本处理中的Attention Model:是什么及为什么。因为那里有些背景知识需要交代。话接上回书,在研读AttentionModel相关文献过程中,我再次深切感受到了科研中的两种创新模式:模型创新与应用创新。若干年前,也就是在我年轻不懂事的花样年华里,具体而言,就是在科学院读博士的后期转载 2016-08-31 19:27:22 · 790 阅读 · 0 评论 -
自然语言处理中的Attention Model:是什么及为什么
要是关注深度学习在自然语言处理方面的研究进展,我相信你一定听说过Attention Model(后文有时会简称AM模型)这个词。AM模型应该说是过去一年来NLP领域中的重要进展之一,在很多场景被证明有效。听起来AM很高大上,其实它的基本思想是相当直观简洁的。本文作者可以对灯发誓:在你读完这篇啰里啰嗦的文章及其后续文章后,一定可以透彻了解AM到底是什么,以及轻易看懂任何有关论文看上去复杂的数学公转载 2016-08-31 10:40:36 · 1024 阅读 · 0 评论 -
一些文本语料库
一、语料库链接下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。(2).搜狗的中文新闻语料库 http://www.s转载 2016-07-24 17:06:05 · 11915 阅读 · 4 评论 -
python处理XML文件
前一段时间忙于毕业论文的事情,一直没有时间关注博客内容。废话不多说了,本篇内容主要针对最近处理XML文件而进行整理的,以下以实例进行讲解。1.XML文件 XML 指可扩展标记语言(eXtensible Markup Language),被设计用来传输和存储数据。XML文档格式如下:<?xml version="1.0" encoding="UTF-8"?><not...原创 2018-05-25 18:38:07 · 729 阅读 · 0 评论