gensim 训练中文语料 word2vec

导入包

import pandas as pd
import jieba
from gensim.models import word2vec 

分词

# 分词
def tokenizer(text): 
   # zh_pattern = re.compile(u'[^\u4e00-\u9fa5]+')
   #  text = re.sub(zh_pattern,"", text)
    return [word for word in jieba.lcut(text) if word not in stop_words]

注释部分是用正则表达式筛选汉字的,但我想想又不对,数字也是有语义的,所以没用了。

去停用词

# 去停用词
def get_stop_words():
    file_object = open('data/stopwords.txt',encoding='utf-8')
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值