Python输入输出-自然语言处理+json格式化

最新推荐文章于 2023-09-11 14:59:10 发布

tryyourbest0928

最新推荐文章于 2023-09-11 14:59:10 发布

阅读量526

点赞数 1

分类专栏： python 文章标签： python json nlp 正则表达式字符串

本文链接：https://blog.csdn.net/tryyourbest0928/article/details/105436548

版权

本文探讨了Python在自然语言处理（NLP）中的应用，包括读取文件、去除标点符号、大写转小写以及词频统计。同时，介绍了JSON的序列化过程，解释了如何将Python字典转换为JSON字符串以及反序列化回字典。

摘要由CSDN通过智能技术生成

Python输入输出-自然语言处理+json格式化

NLP自然语言处理

读取文件
去除所有标点符号和换行符，并把所有大写变成小写；
合并相同的词，统计每个词出现的频率，并按照词频从大到小排序；
将结果按行输出到文件 out.txt。

import re
def parse(text):
    #使用正则表达式去除text文件内标点符号和换行符，替换为空格，
    text = re.sub(r'[^\W]',' ',text)
    #转换为小写
    text = text.lower()
    #生成所有单词的列表。split将输入的字符串分割后为列表
    word_list = text.split(' ')
    #去除空白单词，https://blog.csdn.net/Jerry_1126/article/details/84640993
    #filter方法，若第一个参数为None，则默认去除序列中所有值为假的元素（None、False、0、''、()、[]、{}）
    word_list = filter(None,word_list)
    
    word_cnt = {
    }
    '''
    >>> word_list = ['xxx','yyy','zzz','xxx','yyy','yyy']
    >>> word_cnt = {}
    >>> for word in word_list:
    ...     if word not in word_cnt:
    ...         word_cnt[word] = 0
    ...     word_cnt[word] += 1
    ... 
    >>> word_cnt.i