python与自然语言处理(六):中文文本转图像

最近使用word2vec对文本进行向量化表示,然后模仿基于CNN的图像分类实现文本分类。既然是模仿图像,那就应该可以将文本用图像可视化一下,看看量化后的文本是什么样子。

python处理图像的基本模块是Image库,由于实验中使用的是python3,需要安装的图像处理库为Pillow (pip install Pillow / conda install Pillow)。词向量模型使用的是gensim的word2vec工具,具体操作见这里

#-*-coding=utf-8-*-

from gensim import models
import numpy as np
from PIL import Image

text_width = 10

#load word2vec model
word_vector_size =25
base_model_path = './word_vector_' 
modelpath = base_model_path+str(word_vector_size)
emotion_model = models.Word2Vec.load(modelpath) #加载词向量模型

#得到字符向量
def getCharVec(char):
	vector = np.zeros(word_vector_size)
	if char in emotion_model:
		vector[0:word_vector_size] = emotion_model[char]
	else: #若词汇不在词向量模型中则按正态分布随机初始化
		loc,scale = 0,0.5 #均值和标准差
		vector[0:word_vector_size] = np.random.normal(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值