自然语言处理
文章平均质量分 70
szx_0101
这个作者很懒,什么都没留下…
展开
-
如何做情感分析,以京东评论为例(jieba+sklearn)
1、引言作为 我的自然语言处理的第一篇博客,就简单的给大家看看用jieba分词,提取特征,利用机器学习的算法做情感分析的过程,照样,我不多做说明,请看代码,代码有注释2、介绍我的文本 来自上一篇博客爬取的京东的评论,都放在了我的mysql库里面,所以这里我只要在mysql中提取我想要的数据就行3、代码import jiebaimport pymysqlimport collections,原创 2017-05-26 10:11:37 · 6442 阅读 · 0 评论 -
如何用词向量做文本分类(embedding+cnn)
1、数据简介本文使用的数据集是著名的”20 Newsgroup dataset”。该数据集共有20种新闻文本数据,我们将实现对该数据集的文本分类任务。数据集的说明和下载请参考(http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/news20.html)。本文使用GloVe词向量。GloVe 是 “Global Vectors f原创 2017-05-27 11:37:40 · 25591 阅读 · 4 评论 -
词向量转换成句向量的文本相似度计算
# coding: utf-8# In[2]:###读取已训练好的词向量from gensim.models import word2vecw2v=word2vec.Word2Vec.load('d:/chat_data/corpus_vector.model')##对文本进行分词import jiebaimport reraw_data = []w = open('******',原创 2017-07-21 18:37:39 · 8381 阅读 · 2 评论 -
基于tfidf 以及 lsi 的文本相似度分析
本文主要为了计算文档之间的相似度。标准语聊为我们训练模型所需的,用户语料则用来测试与标准语聊的相似度 1、 数据预处理部分,见注释对标准语聊进行处理如下ws = open('d:/sentence.csv','r',encoding='gbk')times = 0import reimport jieba standard_data = [] ###标准语料map_value = {}原创 2017-07-26 14:41:28 · 3743 阅读 · 0 评论 -
基于增量的矩阵聚类
from gensim.models import word2vecimport jiebaimport numpy as npimport refrom zhon.hanzi import punctuationimport mathimport timefrom scipy import spatial# In[1]:from gensim import corpora, mo原创 2017-11-12 16:05:27 · 1136 阅读 · 0 评论 -
wmd 源码 python实现版
from gensim.models import Word2Vecfrom gensim import corpora, models, similaritiesimport numpy as npimport scipy.optimizefrom scipy import spatialimport timeimport jiebaimport itertoolsjieba.lo原创 2017-11-06 18:27:53 · 3852 阅读 · 12 评论 -
tensorflow实战3-利用seq2seq实现一个聊天机器人
具体项目代码详见github:https://github.com/jacksonsshi/chat_rnn具体介绍网络结构与训练这块 1、seq2seq代码import tensorflow as tfimport numpy as npimport sysclass Seq2Seq(object): def __init__(self, xseq_len, yseq_len,原创 2017-12-04 19:52:36 · 2594 阅读 · 1 评论 -
一张图帮你弄懂text-cnn
1、何为textcnn利用卷积神经网络对文本进行分类的算法,那如何用卷积神经网络对文本进行分类呢。这里就tensorflow版本的textcnn源码分析一波。要知道,对文本向量化之后一般是一个一维向量来代表这个文本,但是卷积神经网络一般是对图像进行处理的,那如何将一维转化成二维呢,textcnn在卷积层之前设置了一个embedding层,即将词向量嵌入进去。那具体如何操作的呢。比如一句话(“白条”...原创 2018-04-12 10:52:46 · 11950 阅读 · 0 评论