tf1.X 利用VocabularyProcessor制作词袋

import jieba
import numpy as np
from tensorflow.contrib import learn


DOCUMENTS = [
    '这是一条测试1',
    '这是一条测试2',
    '这是一条测试3',
]


def chinese_tokenizer(docs):
    for doc in docs:
        yield list(jieba.cut(doc))

# 最长词袋长度,最小频率,分词函数
vocab = learn.preprocessing.VocabularyProcessor(10, 0, tokenizer_fn=chinese_tokenizer)
x = list(vocab.fit_transform(DOCUMENTS))
print(np.array(x))
import jieba
import numpy as np
from tensorflow.contrib import learn

DOCUMENTS = [
    '这是一条测试1',
    '这是一条测试2',
    '这是一条测试3',
]


def chinese_tokenizer(DOCUMENTS):
    lists = []
    for doc in DOCUMENTS: 
        alist = ""
        for i in list(jieba.cut(doc)):
            alist = alist + i + " "
        lists.append(alist)
    return lists

x_text = chinese_tokenizer(DOCUMENTS)
print(x_text)
max_document_length = max([len(x.split(" ")) for x in x_text])

vocab = learn.preprocessing.VocabularyProcessor(max_document_length, 0)
x = list(vocab.fit_transform(x_text))
print(np.array(x))

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值