1,jieba中的cut函数
jieba.cut(text,cut_all=True,HMM=True) 返回的是一个生成器 ,cut_all指定是否采用更小粒度进行划分,HMM表示是否使用HMM模型
jieba.lcut(text,cut_all=True,HMM=True) 返回的是list列表,参数含义同上
2,pad_sequence序列补齐
from keras.preprocessing.sequence import pad_sequences data = [[1,2,3],[4,5],[6,7,8,9]] y0 = pad_sequences(data) y1 = pad_sequences(data,maxlen=5,padding='post') print('=======\n',y1) y2 = pad_sequences(data,maxlen=3,padding='post') print('=======\n',y2) y3 = pad_sequences(data,maxlen=3,padding='pre') print('=======\n',y3)
结果如下:[[1 2 3 0 0]
[4 5 0 0 0]
[6 7 8 9 0]]
=======
[[1 2 3]
[4 5 0]
[7 8 9]]
=======
[[1 2 3]
[0 4 5]
[7 8 9]]
注:其中pre是向前填充,post是向后填充。填充完成后保留最后k个数据