python-文章相似度计算

python-文章相似度计算

编写一个程序,设计实现以下函数并实现整体功能(文章相似度计算):
1.0 word_input_file(file):输入文本文件路径(如input.txt),返回该文档的合理表示(用于以下任务)
1.1 word_tf_df(sentences,word):输入文章列表、词,输出该词的词频、文档频率
1.2 word_cosine_similarity(sentences,sentence1,sentence2):输入文章列表、文章1、文章2,输出文章1和文章2的相似度(即相似的程度,使用余弦相似度【可搜索相关概念】)’’’

读取文章列表

def get_article_list(path):
    """
    从文件中读取文章列表:
    path: 文件路径
    return: (返回列表list[]/元组tuple())
    """
    file = open(path, encoding='utf8')
    res = []
    # 定义一个空列表
    for line in file:
        list1 = line.split('	')
        res.append(list1[1])
        # 每一行新闻加入列表当作一个字符串
    return tuple(res)
# 列表转换成元组,加上'tuple’
articles = get_article_list('../day2/input.txt')

获取文章的词

# 返回词袋,所有文章的词(不重复的)->tuple
def get_bag(article_list):
    """
    返回文章列表词袋
    :article_list:文章列表
    :return:词袋
    """
    # 定义一个空集合,集合可以去重
    res = set
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值