Python输入输出-自然语言处理+json格式化

本文探讨了Python在自然语言处理(NLP)中的应用,包括读取文件、去除标点符号、大写转小写以及词频统计。同时,介绍了JSON的序列化过程,解释了如何将Python字典转换为JSON字符串以及反序列化回字典。
摘要由CSDN通过智能技术生成

Python输入输出-自然语言处理+json格式化

NLP自然语言处理

  1. 读取文件
  2. 去除所有标点符号和换行符,并把所有大写变成小写;
  3. 合并相同的词,统计每个词出现的频率,并按照词频从大到小排序;
  4. 将结果按行输出到文件 out.txt。
    在这里插入图片描述
import re
def parse(text):
    #使用正则表达式去除text文件内标点符号和换行符,替换为空格,
    text = re.sub(r'[^\W]',' ',text)
    #转换为小写
    text = text.lower()
    #生成所有单词的列表。split将输入的字符串分割后为列表
    word_list = text.split(' ')
    #去除空白单词,https://blog.csdn.net/Jerry_1126/article/details/84640993
    #filter方法,若第一个参数为None,则默认去除序列中所有值为假的元素(None、False、0、''、()、[]、{})
    word_list = filter(None,word_list)
    
    word_cnt = {
    }
    '''
    >>> word_list = ['xxx','yyy','zzz','xxx','yyy','yyy']
    >>> word_cnt = {}
    >>> for word in word_list:
    ...     if word not in word_cnt:
    ...         word_cnt[word] = 0
    ...     word_cnt[word] += 1
    ... 
    >>> word_cnt.i
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值