python 中difflib对比结果存在不准确的情况

import difflib


text1 = 'd the develop some hobbies and the make full use of time at school I think of the "Double reduction" policy have the it\'s a good way to relax ourselves and it will make us go backwards in our study , others..... I hope my middle aschool can we need stady . should we do underthe new policy  '
text2='the develop some hobbies and the make full use of time at school I think of the "Double reduction" policy have the it\'s a good way to relax ourselves and it will make us go backwards in our study , others . I hope my middle aschool can we need stady . should we do underthe new policy'

d = difflib.Differ()
res = list(d.compare(text1, text2))

print(res)

['- d', '-  ', '  t', '  h', '  e', '   ', '  d', '  e', '  v', '  e', '  l', '  o', '  p', '   ', '  s', '  o', '  m', '  e', '   ', '  h', '  o', '  b', '  b', '  i', '  e', '  s', '   ', '  a', '  n', '  d', '   ', '  t', '  h', '  e', '   ', '  m', '  a', '  k', '  e', '   ', '  f', '  u', '  l', '  l', '   ', '  u', '  s', '  e', '   ', '  o', '  f', '   ', '  t', '  i', '  m', '  e', '   ', '  a', '  t', '   ', '  s', '  c', '  h', '  o', '  o', '  l', '   ', '  I', '   ', '  t', '  h', '  i', '  n', '  k', '   ', '  o', '  f', '   ', '  t', '  h', '  e', '   ', '  "', '  D', '  o', '  u', '  b', '  l', '  e', '   ', '  r', '  e', '  d', '  u', '  c', '  t', '  i', '  o', '  n', '  "', '   ', '  p', '  o', '  l', '  i', '  c', '  y', '   ', '  h', '  a', '  v', '  e', '   ', '  t', '  h', '  e', '   ', '  i', '  t', "  '", '  s', '   ', '  a', '   ', '  g', '  o', '  o', '  d', '   ', '  w', '  a', '  y', '   ', '  t', '  o', '   ', '  r', '  e', '  l', '  a', '  x', '   ', '  o', '  u', '  r', '  s', '  e', '  l', '  v', '  e', '  s', '   ', '  a', '  n', '  d', '   ', '  i', '  t', '   ', '  w', '  i', '  l', '  l', '   ', '  m', '  a', '  k', '  e', '   ', '  u', '  s', '   ', '  g', '  o', '   ', '  b', '  a', '  c', '  k', '  w', '  a', '  r', '  d', '  s', '   ', '  i', '  n', '   ', '  o', '  u', '  r', '   ', '  s', '  t', '  u', '  d', '  y', '   ', '  ,', '   ', '  o', '  t', '  h', '  e', '  r', '  s', '+  ', '  .', '+  ', '+ I', '+  ', '+ h', '+ o', '+ p', '+ e', '+  ', '+ m', '+ y', '+  ', '+ m', '+ i', '+ d', '+ d', '+ l', '+ e', '+  ', '+ a', '+ s', '+ c', '+ h', '+ o', '+ o', '+ l', '+  ', '+ c', '+ a', '+ n', '+  ', '+ w', '+ e', '+  ', '+ n', '+ e', '+ e', '+ d', '+  ', '+ s', '+ t', '+ a', '+ d', '+ y', '+  ', '  .', '- .', '- .', '- .', '   ', '- I', '-  ', '- h', '- o', '- p', '- e', '-  ', '- m', '- y', '-  ', '- m', '- i', '- d', '- d', '- l', '- e', '-  ', '- a', '  s', '- c', '  h', '  o', '- o', '- l', '-  ', '- c', '- a', '- n', '-  ', '- w', '- e', '-  ', '- n', '- e', '- e', '- d', '-  ', '- s', '- t', '- a', '- d', '- y', '-  ', '- .', '-  ', '- s', '- h', '- o', '  u', '  l', '  d', '   ', '  w', '  e', '   ', '  d', '  o', '   ', '  u', '  n', '  d', '  e', '  r', '  t', '  h', '  e', '   ', '  n', '  e', '  w', '   ', '  p', '  o', '  l', '  i', '  c', '  y', '-  ', '-  ']

其中句子中存在 大段相似的地方 ,但都归为 独一无二的 ,存在较大问题

解决办法 ,可以 考虑将文本中 “..” 进行替换相同长度文本 如 “__”

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值