python判断是否有重复单词_Python:在字符串列表中查找未知的重复单词

我有一个字符串列表,它们是来自不同电子邮件会话的主题。我想看看是否有经常使用的单词或单词组合。在

例如:subjects = [

'Proposal to cooperate - Company Name',

'Company Name Introduction',

'Into Other Firm / Company Name',

'Request for Proposal'

]

该函数必须检测到“公司名称”作为组合被多次使用,“建议”被多次使用。这些词不会提前知道,所以我想它必须开始尝试所有可能的组合。在

当然,实际的列表要比这个例子长很多,所以手动尝试所有的组合似乎不是最好的方法。最好的办法是什么?在

更新

我已经使用了timpietzcker的答案来开始开发一个函数,但是我仍然无法正确地应用计数器。它不断返回列表的长度作为所有短语的计数。在

“短语”功能,包括标点符号过滤器和检查此短语是否已被检查,每个短语的最大长度为3个单词:

^{pr2}$

然后循环浏览主题列表:phrase_list = []

ranking = {}

for s in subjects:

result, phrase_list = phrases(s, phrase_list)

all_phrases = collections.Counter(phrase.lower() for s in subjects for phrase in result)

“all\u phrases”返回一个包含元组的列表,其中每个计数值为167,这是我使用的主题列表的长度。不知道我在这里错过了什么。。。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值