思考1:如何构建一个影视作品语料库
1.首先下载一些影视作品的语料库
import nltk
from nltk.book import *
from nltk.corpus import PlaintextCorpusReader
corpus_root = '\data' #本地存放影视作品的目录
# 用于读取语料库中文本标识列表
# 第一个参数是语料库的根目录,第二个参数是一个正则表达式,用于匹配文件名
# 这里使用的正则表达式'.*'将匹配所有文件
wordlists = PlaintextCorpusReader(corpus_root, '.*')
# 获取文件列表
wordlists.fileids()
通过构建完语料库之后,可以利用nltk的基本函数进行搜索相似词语。指定内容、搭配词语、查询文本词汇频数等相关操作。
思考2: 如何读取本地新闻并分析
1.准备环境
本代码运用到了jieba库,matplotlib库,需要下载:
(1)首先需要打开并运行nlp环境
conda activate nlp
(2)conda下载库
conda install -c conda-forge jieba
conda install matplotlib
如果下载失败看下方文章:
2.代码模块
读取本地新闻并分析首先要进行第一步读取新闻语料。(以上篇所给数据集为例子)
在导入本地新闻语料库后,可以进行如:在不重复词的条件下统计新闻语料的总用词量和每个词的使用次数,查看特定词使用次数,查看新闻部分文本,查询在频率指定区间内查看词量,使用lcut函数分词等操作。
import re
import nltk
import jieba
import matplotlib as mpl
import matplotlib.pyplot as plt
from nltk import FreqDist # 导入NLTK库中的频率分布类
from collections import Counter # 导入collections模块中的计数器类
# 使用with语句打开文件,确保文件最后会被正确关闭
with open(r'D:\pythoncode\nlp\data.txt', 'r', encoding='utf-8') as f:
# 读取文件内容到字符串fiction中
fiction = f.read()
# 统计文本中不同单词的数量(用词量)
# 这里使用set来去除重复的单词
print('文本中用词量:', len(set(fiction)))
# 计算文本中单词的平均使用次数
# 这里假设每个字符都是一个单词的一部分
print('文本中平均每个词使用次数:', len(fiction) / len(set(fiction)))
# 统计文本中“北京”一词出现的次数
print('文本中“北京”一词使用次数:', fiction.count('北京'))
# 统计文本中“医学”一词出现的次数
print('文本中“医学”一词使用次数:', fiction.count('医学'))
# 输出文本的前20个字符,查看部分文本内容
print('部分文本内容:', fiction[30:50])
# 使用FreqDist计算文本中单词的频率分布
fdist = FreqDist(fiction)
# 打印出现频率最高的前10个单词及其使用次数
print('前10最常用词及其使用次数:', fdist.most_common(10))
# 使用Counter计算文本中单词的频率
W = Counter(fiction)
# 计算只出现一次的单词数量
print('只出现一次的单词数量:', len([w for w in W.values() if w == 1]))
# 计算出现少于3次的单词数量
print('出现少于3次的单词数量:', len([w for w in W.values() if w < 3]))
# 计算出现3次或以上的单词数量
print('出现3次或以上的单词数量:', len([w for w in W.values() if w >= 3]))
#判断是否为中文
cleaned_data =''.join(re.findall('[\u4e00-\u9fa5]',fiction))
#分词处理
wordlist=jieba.lcut(cleaned_data)
#封装成Text类对象
text=nltk.Text(wordlist)
print(text)
#查看指定词的上下文
text.concordance(word='中国',width=25,lines=3)
#搜索相似词语
print(text.similar('委员'))
#绘制词汇离散图
mpl.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
words=['专家','医学','教师','血管']
nltk.draw.dispersion.dispersion_plot(text, words,title='词汇离散图')
# 保存绘制的图像
plt.savefig('plt.png', bbox_inches='tight', dpi=300) # 保存为PNG文件(可更改为其他格式)
plt.show() # 显示图像
输出结果如下:
D:\ana\envs\nlp\python.exe D:\pythoncode\nlp\main.py
文本中用词量: 293
文本中平均每个词使用次数: 2.6587030716723548
文本中“北京”一词使用次数: 6
文本中“医学”一词使用次数: 5
部分文本内容: ”,中国著名心血管学术领袖胡大一今天在此
前10最常用词及其使用次数: [('医', 24), (',', 23), ('心', 22), ('病', 16), ('会', 16), ('学', 15), ('、', 15), ('大', 13), ('\u3000', 12), ('的', 11)]
只出现一次的单词数量: 159
出现少于3次的单词数量: 218
出现3次或以上的单词数量: 75
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\86130\AppData\Local\Temp\jieba.cache
Loading model cost 0.397 seconds.
Prefix dict has been built successfully.
<Text: 先天性 心脏病 几岁 可 根治 十几岁 变 难治...>
Displaying 3 of 5 matches:
难治 几十岁 成不治 中国 著名 心血管 学术
胡大一 表示 由于 中国 经济 发展 的 不
严重 差异化 目前 中国 有 这种 情况 的
No matches
None
进程已结束,退出代码为 0
由于数据集原因结果可能不是很理想。但代码正确