6-29创新实训工作记录2

主要工作内容

  • 解决了词云生成读文件的问题
    在读文件时,有数据编码格式的问题,因此专门写了一个方法对基本上所有文件读。
  • 将之前生成词云多次的读写进一步浓缩,缩减为在一个方法内,对内存变量进行多次的独写和修改,进一步简化了代码结构同时加快了运行速度。
  • 核心代码如下:
# name为文件名称, key为关键字
def dataForWordCloud(name, key = ''):
    inputs = readTxt(name)
    jieba.analyse.set_stop_words(FileFeaturePath)
    pattern = re.compile(r'[^\u4e00-\u9fa5]')
    outputs = ""
    for line in inputs:
        output = re.sub(pattern, "", line)
        seg = jieba.cut(output.strip(), cut_all=False)
        # 分好词之后之间用空格隔断
        output = ' '.join(seg)
        outputs = outputs + str(output)
    # print(outputs)
    keywords = jieba.analyse.extract_tags(outputs, topK=30, withWeight=True, allowPOS=())
    # print(keywords)
    return keywords

返回值为数组格式,与之前写好的词云生成模板正好可以配套使用,详细调用方法见项目github地址的说明文件以及test目录下的调用demo

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值