6-29创新实训工作记录2

最新推荐文章于 2024-06-22 20:22:11 发布

林木木不吃香菜的

最新推荐文章于 2024-06-22 20:22:11 发布

阅读量115

点赞数

本文链接：https://blog.csdn.net/sdyinruichao/article/details/107029898

版权

主要工作内容

解决了词云生成读文件的问题
在读文件时，有数据编码格式的问题，因此专门写了一个方法对基本上所有文件读。
将之前生成词云多次的读写进一步浓缩，缩减为在一个方法内，对内存变量进行多次的独写和修改，进一步简化了代码结构同时加快了运行速度。
核心代码如下：

# name为文件名称， key为关键字
def dataForWordCloud(name, key = ''):
    inputs = readTxt(name)
    jieba.analyse.set_stop_words(FileFeaturePath)
    pattern = re.compile(r'[^\u4e00-\u9fa5]')
    outputs = ""
    for line in inputs:
        output = re.sub(pattern, "", line)
        seg = jieba.cut(output.strip(), cut_all=False)
        # 分好词之后之间用空格隔断
        output = ' '.join(seg)
        outputs = outputs + str(output)
    # print(outputs)
    keywords = jieba.analyse.extract_tags(outputs, topK=30, withWeight=True, allowPOS=())
    # print(keywords)
    return keywords

返回值为数组格式，与之前写好的词云生成模板正好可以配套使用，详细调用方法见项目github地址的说明文件以及test目录下的调用demo

林木木不吃香菜的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
6-29创新实训工作记录2

主要工作内容解决了词云生成读文件的问题在读文件时，有数据编码格式的问题，因此专门写了一个方法对基本上所有文件读。将之前生成词云多次的读写进一步浓缩，缩减为在一个方法内，对内存变量进行多次的独写和修改，进一步简化了代码结构同时加快了运行速度。核心代码如下：# name为文件名称， key为关键字def dataForWordCloud(name, key = ''): inputs = readTxt(name) jieba.analyse.set_stop_words(Fil
复制链接

扫一扫