NLP
文章平均质量分 71
风度翩翩猪肉王子
这个作者很懒,什么都没留下…
展开
-
Keras-CNN、LSTM、文本分类、多分类、词向量
一、本文目的关于如何训练词向量,如何将文本数据组织成Keras的要求,本文不会讲述。本文的目的在于解决经典论文集中的CNN分类模型,如下图所示:从上图中可以看到,每次训练时,filter size的大小是变化的,包括3、4、5。而网上流传的利用Keras构建CNN文本分类模型中,filter size是固定的,因此本文就是要解决filter size变化的情况下的CNN文本分类模型。二、...原创 2019-12-18 10:44:01 · 2485 阅读 · 1 评论 -
训练Doc2Vec
将文本数据表示成list of list的形式:对每一条文本进行分词操作,可能的话,去除停用词,加上自定义词等:训练Doc2Vec,其中参数dm=1表示DM模型,dm=0表示DBOW模型。(此处没有写,dm参数放在Doc2Vec()函数中)...原创 2019-12-12 10:56:10 · 1107 阅读 · 1 评论 -
配置以及监测:用GPU来跑Keras
前提条件:你的系统有GPU(Nvidia.因为AMD还没有工作)您已经安装了tensorflow的GPU版本您已安装CUDA并且配置好环境变量。检测第一步from tensorflow.python.client import device_libprint(device_lib.list_local_devices())输出[name: "/device:CPU:0"...原创 2019-09-30 19:49:11 · 897 阅读 · 0 评论 -
通过gensim,加载预训练词向量,获取embedding_matrix
使用预训练的词向量1. 加载词向量# 加载训练好的词向量模型import gensimWord2VecModel = gensim.models.Word2Vec.load(词向量模型所在路径) # 读取词向量2. 构造包含所有词语的 list,以及初始化 “词语-索引”字典 和 “词向量”矩阵# 获取某一个词的向量表示In[1]: Word2VecModel.wv['申请'...原创 2019-09-30 09:39:00 · 9208 阅读 · 1 评论 -
Keras实现单词级的one-hot编码
这是对英文文本进行处理# 导入相关文本处理包In [1]: from keras.preprocessing.text import Tokenizer# 两个句子示例In [2]: samples = ['The cat sat on the mat.', 'The dog ate my homework.']# 创建一个分词器(tokenizer),设置为只考虑前 1000 个最...原创 2019-09-27 10:33:55 · 802 阅读 · 0 评论 -
《邪不压正》词云分析
import picklefrom os import pathimport jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloud, STOPWORDS, ImageColorGeneratorcomment = []with open('xie_zheng2.txt', mode='r', encod...原创 2018-08-21 21:20:43 · 347 阅读 · 0 评论 -
如何用Python和机器学习训练中文文本情感分类模型?
# 数据我的一个学生,利用爬虫抓取了大众点评网站上的数万条餐厅评论数据。这些数据在爬取时,包含了丰富的元数据类型。我从中抽取了评论文本和评星(1-5星),用于本文的演示。从这些数据里,我们随机筛选评星为1,2,4,5的,各500条评论数据。一共2000条。为什么只甩下评星数量为3的没有选择?你先思考10秒钟,然后往下看,核对答案。答案是这样的:因为我们只希望对情感做出(正和负)二元...转载 2018-08-21 20:41:23 · 2102 阅读 · 2 评论 -
Python情感分析
1. 英文文本情感分析借助TextBlob包:GitHub链接FeaturesNoun phrase extractionPart-of-speech taggingSentiment analysisClassification (Naive Bayes, Decision Tree)Language translation and detection powered by...原创 2018-08-21 17:29:30 · 3724 阅读 · 0 评论 -
NLP资料
自然语言处理(NLP) 专知荟萃入门学习进阶论文Word VectorsMachine TranslationSummarizationText Classification DialogsReading ComprehensionMemory and Attention Modelsreinforcement learning in nlpGAN for NLP综述视频课程Tutori...转载 2018-08-18 17:41:50 · 6432 阅读 · 0 评论 -
python的中文文本挖掘库snownlp进行购物评论文本情感分析实例
昨晚上发现了snownlp这个库,很开心。先说说我开心的原因。我本科毕业设计做的是文本挖掘,用R语言做的,发现R语言对文本处理特别不友好,没有很多强大的库,特别是针对中文文本的,加上那时候还没有学机器学习算法。所以很头疼,后来不得已用了一个可视化的软件RostCM,但是一般可视化软件最大的缺点是无...转载 2018-08-12 19:52:04 · 1498 阅读 · 1 评论 -
1. jieba库基本用法
1. 简介jieba库对中文分词的支持性较好,将文本分成粒度更细的词。详细介绍参见jieba。2. 基本分词函数jieba.cut以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator。jieba.cut 方法接受三个输入参数: 需要分词的字符串cut_all参数用来控制是否采用全模式HMM 参数用来控制是否使用 HMM 模型jie...原创 2018-08-07 17:26:15 · 4152 阅读 · 0 评论