import difflib
text1 = 'd the develop some hobbies and the make full use of time at school I think of the "Double reduction" policy have the it\'s a good way to relax ourselves and it will make us go backwards in our study , others..... I hope my middle aschool can we need stady . should we do underthe new policy '
text2='the develop some hobbies and the make full use of time at school I think of the "Double reduction" policy have the it\'s a good way to relax ourselves and it will make us go backwards in our study , others . I hope my middle aschool can we need stady . should we do underthe new policy'
d = difflib.Differ()
res = list(d.compare(text1, text2))
print(res)
['- d', '- ', ' t', ' h', ' e', ' ', ' d', ' e', ' v', ' e', ' l', ' o', ' p', ' ', ' s', ' o', ' m', ' e', ' ', ' h', ' o', ' b', ' b', ' i', ' e', ' s', ' ', ' a', ' n', ' d', ' ', ' t', ' h', ' e', ' ', ' m', ' a', ' k', ' e', ' ', ' f', ' u', ' l', ' l', ' ', ' u', ' s', ' e', ' ', ' o', ' f', ' ', ' t', ' i', ' m', ' e', ' ', ' a', ' t', ' ', ' s', ' c', ' h', ' o', ' o', ' l', ' ', ' I', ' ', ' t', ' h', ' i', ' n', ' k', ' ', ' o', ' f', ' ', ' t', ' h', ' e', ' ', ' "', ' D', ' o', ' u', ' b', ' l', ' e', ' ', ' r', ' e', ' d', ' u', ' c', ' t', ' i', ' o', ' n', ' "', ' ', ' p', ' o', ' l', ' i', ' c', ' y', ' ', ' h', ' a', ' v', ' e', ' ', ' t', ' h', ' e', ' ', ' i', ' t', " '", ' s', ' ', ' a', ' ', ' g', ' o', ' o', ' d', ' ', ' w', ' a', ' y', ' ', ' t', ' o', ' ', ' r', ' e', ' l', ' a', ' x', ' ', ' o', ' u', ' r', ' s', ' e', ' l', ' v', ' e', ' s', ' ', ' a', ' n', ' d', ' ', ' i', ' t', ' ', ' w', ' i', ' l', ' l', ' ', ' m', ' a', ' k', ' e', ' ', ' u', ' s', ' ', ' g', ' o', ' ', ' b', ' a', ' c', ' k', ' w', ' a', ' r', ' d', ' s', ' ', ' i', ' n', ' ', ' o', ' u', ' r', ' ', ' s', ' t', ' u', ' d', ' y', ' ', ' ,', ' ', ' o', ' t', ' h', ' e', ' r', ' s', '+ ', ' .', '+ ', '+ I', '+ ', '+ h', '+ o', '+ p', '+ e', '+ ', '+ m', '+ y', '+ ', '+ m', '+ i', '+ d', '+ d', '+ l', '+ e', '+ ', '+ a', '+ s', '+ c', '+ h', '+ o', '+ o', '+ l', '+ ', '+ c', '+ a', '+ n', '+ ', '+ w', '+ e', '+ ', '+ n', '+ e', '+ e', '+ d', '+ ', '+ s', '+ t', '+ a', '+ d', '+ y', '+ ', ' .', '- .', '- .', '- .', ' ', '- I', '- ', '- h', '- o', '- p', '- e', '- ', '- m', '- y', '- ', '- m', '- i', '- d', '- d', '- l', '- e', '- ', '- a', ' s', '- c', ' h', ' o', '- o', '- l', '- ', '- c', '- a', '- n', '- ', '- w', '- e', '- ', '- n', '- e', '- e', '- d', '- ', '- s', '- t', '- a', '- d', '- y', '- ', '- .', '- ', '- s', '- h', '- o', ' u', ' l', ' d', ' ', ' w', ' e', ' ', ' d', ' o', ' ', ' u', ' n', ' d', ' e', ' r', ' t', ' h', ' e', ' ', ' n', ' e', ' w', ' ', ' p', ' o', ' l', ' i', ' c', ' y', '- ', '- ']
其中句子中存在 大段相似的地方 ,但都归为 独一无二的 ,存在较大问题
解决办法 ,可以 考虑将文本中 “..” 进行替换相同长度文本 如 “__”