假设对一段中文文本片段进行分词组句,其中分词使用jieba 组句使用random
import jieba
import random
s='今天空气清新,我们一起去踏青。'
以‘,’为分节符,对上下句分别进行分词,得到一个列表
k = s.find(',')
s1=jieba.lcut(s[0:k])
s2=jieba.lcut(s[k+1,-1])
设置一个列表,储存组句。
lines=[]
进行组句
while True:
line=''
random.shuffle(s1)
random.shuffle(s2)
for item in s1:
line += item
line+=','
for item in s2:
line += item
line +='。'
跳过重复的句子
if line in lines:
continue
else:
lines.append(line)