python NLP简单实现

最新推荐文章于 2024-05-14 03:47:05 发布

罗显明-技术个人博客

最新推荐文章于 2024-05-14 03:47:05 发布

阅读量398

点赞数 1

分类专栏： Python 文章标签：自然语言处理 python 人工智能

本文链接：https://blog.csdn.net/weixin_41910699/article/details/128582624

版权

Python 专栏收录该内容

36 篇文章 1 订阅

订阅专栏

一、背景：

NLP任务基本步骤：
1. 读取文件
2. 去除标点和换行符，并把 所有的大小转换为小写
3. 合并形同的词，统计词频，并按照词频从大到小排序
4. 输出结果

二、代码简单实现

import re
import pathlib

#获取目录
script_path = pathlib.PurePath(__file__).parent
text_path = pathlib.Path(script_path).joinpath("text")


#定义函数，处理文本
def parse_text(filename):
    with open(filename,encoding='utf-8') as fs:
        content = fs.read()
        #去除标点符号和换行符
        text = re.sub(r'[^\w]'," ",content)

        #转化为小写
        text = text.lower()

        #转化为列表
        word_list = text.split()

        #去除空白单词
        word_list = list(filter(None,word_list))

        #生成词典，键为单词，值为单次出现的次数
        word_dict = {}
        for word in word_list:
            if word not in word_dict:
                word_dict[word]=0
            word_dict[word]+=1

        #按照词频排序
        word_total = sorted(word_dict.items(),key=lambda x:x[1])

        return word_total