NLP从零开始------3基础文本处理之语料库思考示例代码

人生百态，人生如梦

已于 2024-07-31 12:47:40 修改

阅读量333

点赞数 9

分类专栏： nlp从零开始文章标签：自然语言处理人工智能深度学习 python

于 2024-07-31 12:28:41 首次发布

本文链接：https://blog.csdn.net/m0_74922316/article/details/140809020

版权

nlp从零开始专栏收录该内容

22 篇文章 9 订阅

订阅专栏

思考1：如何构建一个影视作品语料库

1.首先下载一些影视作品的语料库

import nltk
from nltk.book import *
from nltk.corpus import PlaintextCorpusReader

corpus_root = '\data' #本地存放影视作品的目录

# 用于读取语料库中文本标识列表
# 第一个参数是语料库的根目录，第二个参数是一个正则表达式，用于匹配文件名
# 这里使用的正则表达式'.*'将匹配所有文件
wordlists = PlaintextCorpusReader(corpus_root, '.*')

# 获取文件列表
wordlists.fileids()

通过构建完语料库之后，可以利用nltk的基本函数进行搜索相似词语。指定内容、搭配词语、查询文本词汇频数等相关操作。

思考2: 如何读取本地新闻并分析

1.准备环境

本代码运用到了jieba库，matplotlib库，需要下载：

（1）首先需要打开并运行nlp环境

conda activate nlp

(2)conda下载库

conda install -c conda-forge jieba
conda install matplotlib

如果下载失败看下方文章：

Anaconda-Python安装jieba库_anaconda 安装jieba-CSDN博客

2.代码模块

读取本地新闻并分析首先要进行第一步读取新闻语料。（以上篇所给数据集为例子）

在导入本地新闻语料库后，可以进行如：在不重复词的条件下统计新闻语料的总用词量和每个词的使用次数，查看特定词使用次数，查看新闻部分文本，查询在频率指定区间内查看词量，使用lcut函数分词等操作。

import re
import nltk
import jieba
import matplotlib as mpl
import matplotlib.pyplot as plt
from nltk import FreqDist  # 导入NLTK库中的频率分布类
from collections import Counter  # 导入collections模块中的计数器类


# 使用with语句打开文件，确保文件最后会被正确关闭
with open(r'D:\pythoncode\nlp\data.txt', 'r', encoding='utf-8') as f:
    # 读取文件内容到字符串fiction中
    fiction = f.read()
    # 统计文本中不同单词的数量（用词量）
    # 这里使用set来去除重复的单词
    print('文本中用词量：', len(set(fiction)))
    # 计算文本中单词的平均使用次数
    # 这里假设每个字符都是一个单词的一部分
    print('文本中平均每个词使用次数：', len(fiction) / len(set(fiction)))


    # 统计文本中“北京”一词出现的次数
    print('文本中“北京”一词使用次数：', fiction.count('北京'))
    # 统计文本中“医学”一词出现的次数
    print('文本中“医学”一词使用次数：', fiction.count('医学'))


    # 输出文本的前20个字符，查看部分文本内容
    print('部分文本内容：', fiction[30:50])


    # 使用FreqDist计算文本中单词的频率分布
    fdist = FreqDist(fiction)
    # 打印出现频率最高的前10个单词及其使用次数
    print('前10最常用词及其使用次数：', fdist.most_common(10))


    # 使用Counter计算文本中单词的频率
    W = Counter(fiction)
    # 计算只出现一次的单词数量
    print('只出现一次的单词数量：', len([w for w in W.values() if w == 1]))
    # 计算出现少于3次的单词数量
    print('出现少于3次的单词数量：', len([w for w in W.values() if w < 3]))
    # 计算出现3次或以上的单词数量
    print('出现3次或以上的单词数量：', len([w for w in W.values() if w >= 3]))


    #判断是否为中文
    cleaned_data =''.join(re.findall('[\u4e00-\u9fa5]',fiction))
    #分词处理
    wordlist=jieba.lcut(cleaned_data)
    #封装成Text类对象
    text=nltk.Text(wordlist)
    print(text)


    #查看指定词的上下文
    text.concordance(word='中国',width=25,lines=3)


    #搜索相似词语
    print(text.similar('委员'))


    #绘制词汇离散图
    mpl.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    words=['专家','医学','教师','血管']
    nltk.draw.dispersion.dispersion_plot(text, words,title='词汇离散图')
    # 保存绘制的图像
    plt.savefig('plt.png', bbox_inches='tight', dpi=300)  # 保存为PNG文件（可更改为其他格式）
    plt.show()  # 显示图像

输出结果如下：

D:\ana\envs\nlp\python.exe D:\pythoncode\nlp\main.py 
文本中用词量： 293
文本中平均每个词使用次数： 2.6587030716723548
文本中“北京”一词使用次数： 6
文本中“医学”一词使用次数： 5
部分文本内容： ”，中国著名心血管学术领袖胡大一今天在此
前10最常用词及其使用次数： [('医', 24), ('，', 23), ('心', 22), ('病', 16), ('会', 16), ('学', 15), ('、', 15), ('大', 13), ('\u3000', 12), ('的', 11)]
只出现一次的单词数量： 159
出现少于3次的单词数量： 218
出现3次或以上的单词数量： 75
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\86130\AppData\Local\Temp\jieba.cache
Loading model cost 0.397 seconds.
Prefix dict has been built successfully.
<Text: 先天性 心脏病 几岁 可 根治 十几岁 变 难治...>
Displaying 3 of 5 matches:
难治 几十岁 成不治 中国 著名 心血管 学术 
 胡大一 表示 由于 中国 经济 发展 的 不 
 严重 差异化 目前 中国 有 这种 情况 的 
No matches
None

进程已结束，退出代码为 0

由于数据集原因结果可能不是很理想。但代码正确