NLP从零开始------3基础文本处理之语料库思考示例代码

思考1:如何构建一个影视作品语料库

        1.首先下载一些影视作品的语料库

import nltk
from nltk.book import *
from nltk.corpus import PlaintextCorpusReader

corpus_root = '\data' #本地存放影视作品的目录

# 用于读取语料库中文本标识列表
# 第一个参数是语料库的根目录,第二个参数是一个正则表达式,用于匹配文件名
# 这里使用的正则表达式'.*'将匹配所有文件
wordlists = PlaintextCorpusReader(corpus_root, '.*')

# 获取文件列表
wordlists.fileids()



        通过构建完语料库之后,可以利用nltk的基本函数进行搜索相似词语。指定内容、搭配词语、查询文本词汇频数等相关操作。

思考2:  如何读取本地新闻并分析

1.准备环境

        本代码运用到了jieba库,matplotlib库,需要下载:

       (1)首先需要打开并运行nlp环境

conda activate nlp

        (2)conda下载库

conda install -c conda-forge jieba
conda install matplotlib

        如果下载失败看下方文章:

Anaconda-Python安装jieba库_anaconda 安装jieba-CSDN博客

     2.代码模块

        读取本地新闻并分析首先要进行第一步读取新闻语料。(以上篇所给数据集为例子)

        在导入本地新闻语料库后,可以进行如:在不重复词的条件下统计新闻语料的总用词量和每个词的使用次数,查看特定词使用次数,查看新闻部分文本,查询在频率指定区间内查看词量,使用lcut函数分词等操作。

import re
import nltk
import jieba
import matplotlib as mpl
import matplotlib.pyplot as plt
from nltk import FreqDist  # 导入NLTK库中的频率分布类
from collections import Counter  # 导入collections模块中的计数器类


# 使用with语句打开文件,确保文件最后会被正确关闭
with open(r'D:\pythoncode\nlp\data.txt', 'r', encoding='utf-8') as f:
    # 读取文件内容到字符串fiction中
    fiction = f.read()
    # 统计文本中不同单词的数量(用词量)
    # 这里使用set来去除重复的单词
    print('文本中用词量:', len(set(fiction)))
    # 计算文本中单词的平均使用次数
    # 这里假设每个字符都是一个单词的一部分
    print('文本中平均每个词使用次数:', len(fiction) / len(set(fiction)))


    # 统计文本中“北京”一词出现的次数
    print('文本中“北京”一词使用次数:', fiction.count('北京'))
    # 统计文本中“医学”一词出现的次数
    print('文本中“医学”一词使用次数:', fiction.count('医学'))


    # 输出文本的前20个字符,查看部分文本内容
    print('部分文本内容:', fiction[30:50])


    # 使用FreqDist计算文本中单词的频率分布
    fdist = FreqDist(fiction)
    # 打印出现频率最高的前10个单词及其使用次数
    print('前10最常用词及其使用次数:', fdist.most_common(10))


    # 使用Counter计算文本中单词的频率
    W = Counter(fiction)
    # 计算只出现一次的单词数量
    print('只出现一次的单词数量:', len([w for w in W.values() if w == 1]))
    # 计算出现少于3次的单词数量
    print('出现少于3次的单词数量:', len([w for w in W.values() if w < 3]))
    # 计算出现3次或以上的单词数量
    print('出现3次或以上的单词数量:', len([w for w in W.values() if w >= 3]))


    #判断是否为中文
    cleaned_data =''.join(re.findall('[\u4e00-\u9fa5]',fiction))
    #分词处理
    wordlist=jieba.lcut(cleaned_data)
    #封装成Text类对象
    text=nltk.Text(wordlist)
    print(text)


    #查看指定词的上下文
    text.concordance(word='中国',width=25,lines=3)


    #搜索相似词语
    print(text.similar('委员'))


    #绘制词汇离散图
    mpl.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    words=['专家','医学','教师','血管']
    nltk.draw.dispersion.dispersion_plot(text, words,title='词汇离散图')
    # 保存绘制的图像
    plt.savefig('plt.png', bbox_inches='tight', dpi=300)  # 保存为PNG文件(可更改为其他格式)
    plt.show()  # 显示图像

        输出结果如下:

D:\ana\envs\nlp\python.exe D:\pythoncode\nlp\main.py 
文本中用词量: 293
文本中平均每个词使用次数: 2.6587030716723548
文本中“北京”一词使用次数: 6
文本中“医学”一词使用次数: 5
部分文本内容: ”,中国著名心血管学术领袖胡大一今天在此
前10最常用词及其使用次数: [('医', 24), (',', 23), ('心', 22), ('病', 16), ('会', 16), ('学', 15), ('、', 15), ('大', 13), ('\u3000', 12), ('的', 11)]
只出现一次的单词数量: 159
出现少于3次的单词数量: 218
出现3次或以上的单词数量: 75
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\86130\AppData\Local\Temp\jieba.cache
Loading model cost 0.397 seconds.
Prefix dict has been built successfully.
<Text: 先天性 心脏病 几岁 可 根治 十几岁 变 难治...>
Displaying 3 of 5 matches:
难治 几十岁 成不治 中国 著名 心血管 学术 
 胡大一 表示 由于 中国 经济 发展 的 不 
 严重 差异化 目前 中国 有 这种 情况 的 
No matches
None

进程已结束,退出代码为 0

        由于数据集原因结果可能不是很理想。但代码正确

                

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值