python删除重复单词_从python脚本中生成的文本中删除重复的单词

我制作了一个

python脚本来从输入文件中获取文本,并根据切割技术(http://en.wikipedia.org/wiki/Cut-up_technique)随机重新排列创意写作项目的单词.

这是目前的脚本.注意:我正在运行这个作为服务器端包括.

#!/usr/bin/python

from random import shuffle

src = open("input.txt", "r")

srcText = src.read()

src.close()

srcList = srcText.split()

shuffle(srcList)

cutUpText = " ".join(srcList)

print("Content-type: text/html\n\n" + cutUpText)

这基本上完成了我希望它做的工作,但我想做的一个改进是识别输出中的重复单词并删除它们.为了澄清,我只想识别序列中的重复项,例如“the the”或“I I I”.我不想这样做,例如,“the”只在整个输出中出现一次.

有人能指出我正确的方向来开始解决这个问题吗? (我的背景不是编程,所以我基本上通过python手册的大量阅读和浏览这个网站把这个脚本放在一起.请对我温柔.)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是实现该功能的 Python 代码: ```python import re from collections import Counter # 读取文本文件 with open('input.txt', 'r', encoding='utf-8') as f: text = f.read() # 提取蒙古文单词 words = re.findall(r'[\u1800-\u18AF]+', text) # 统计单词出现次数,并按照出现次数从高到低排序 word_counts = Counter(words) sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True) # 将结果保存到文本文件 with open('output.txt', 'w', encoding='utf-8') as f: for word, count in sorted_word_counts: f.write(f'{word}: {count}\n') ``` 解释一下代码: 首先,我们使用 `with open()` 语句读取文本文件,其 `r` 表示只读模式,`encoding='utf-8'` 表示使用 UTF-8 编码。 然后,我们使用正则表达式 `[\u1800-\u18AF]+` 提取蒙古文单词。该正则表达式表示匹配 Unicode 编码范围为 1800 到 18AF 的字符,即蒙古文字符,`+` 表示匹配一个或多个字符。我们使用 `re.findall()` 函数提取文本的蒙古文单词。 接下来,我们使用 `collections.Counter()` 函数统计单词出现次数,并使用 `sorted()` 函数按照出现次数从高到低排序。 最后,我们使用 `with open()` 语句将结果保存到文本文件,其 `w` 表示写入模式,`encoding='utf-8'` 表示使用 UTF-8 编码。 请将需要分析的文本文件保存为 `input.txt`,并将以上代码保存为 `count_mongolian_words.py`,然后运行该 Python 脚本,即可在当前目录下生成一个名为 `output.txt` 的文本文件,其包含了蒙古文单词出现次数从高到低排序的结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值