实验三:中文语料词向量的构建及相似度的计算

一、实验目的:

1.掌握对中文语料进行预处理的方法。

2.掌握使用Word2Vec模型进行词向量训练的方法。

3.掌握使用Word2Vec模型计算词向量之间的相似度的方法。

二、实验设备及分组

1. PC机或笔记本电脑若干;

2. Window 7及以上版本操作系统;

3. Python 运行环境;

4.安装和配置Anaconda。

三、实验任务及要求

    实验任务:

1.使用文件夹“20190102”里的《人民日报》每日新闻的语料进行预处理,并使用Word2Vec模型实现词语的向量化。

2.输出'努力'和'建设'这2个词的相似度,并找出与'努力'这个词最相似的10个词语。

3.保存训练后词向量模型。

4.保存处理好的数据集。

    实验要求

             1.会利用jieba分析进行文本的切分。

             2.会利用gensim库中的函数训练词向量。

             3.整理数据,撰写实验报告。

四、实验过程及实验步骤:

注意修改文件的位置

  

import os
import gensim
import jieba
from gensim.models.word2vec import Word2Vec

path='D:\\python_data\\第七章\\20190102'
list_name=[]  #放置的是当前文件夹下的每个文本的路径
for file in os.listdir(path):
    file_path=os.path.join(path,file)
    list_name.append(file_path)
print(file_path)

stop_word=[' ','\u3000','\xa0','\n']
for line in open('D:\\python_data\\stopword.txt','r',encoding='utf-8').readlines():
    line=line.strip()
    stop_word.append(line)

sen_list=[]
for path_name in list_name:
    f=open(path_name,'r',encoding='utf-8').read()
    temp_list=jieba.lcut(f)
    temp_list=[w for w in temp_list if w not in stop_word]
    sen_list.append(temp_list)
len(sen_list)

model=Word2Vec(sen_list,min_count=2)
model.wv.similarity('努力','建设')  #求两个词的相识度
model.wv.most_similar('努力',topn=10)  #找给定词的10个相似词
#直接保存模型
model.save('D:\\python_data\\第七章\\New_w2v_word.txt')
#加载刚才保存的模型
model2=Word2Vec.load('D:\\python_data\\第七章\\New_w2v_word.txt') 		model2.wv.similarity('努力','建设')  #求两个词的相识度


f=open('D:\\python_data\\第七章\\201902w2v_word.txt','w',encoding='utf-8')
for text in sen_list:
    f.write(' '.join(text)+'\n')
f.close() 		#每一行是一个文本,每一行的词必须空格进行连接
from gensim.models.word2vec import LineSentence
sentences=LineSentence('D:\\python_data\\第七章\\201902w2v_word.txt')
list(sentences)

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在建立了古诗语料库的基础上,我们可以使用向量模型,如Word2Vec或Glove等,来训练出语料库中的向量表示。向量模型是一种通过自然语言处理技术来将文本中的表示为数字向量的方法。这些向量可以用来表示之间的相似度,并且可以用来解决一些自然语言处理任务,如文本分类、语义相似计算等。使用Word2Vec或Glove等向量模型训练古诗语料库中的向量,可以帮助我们更好地理解古诗语文本的含义,并且可以帮助我们解决许多自然语言处理任务。 ### 回答2: 基于构建的古诗语料库,训练向量模型,例如Word2Vec、Glove等,可以帮助我们更好地理解和处理古诗文本。 首先,通过构建古诗语料库,我们可以收集大量真实的古代诗歌作品,囊括不同朝代、不同风格的诗歌。这些古诗文本不仅包含了各种主题和情感,还反映了当时社会、文化、历史等方面的信息。构建这样一个丰富多样的语料库,可以为向量模型提供充足的数据支持。 然后,我们可以使用Word2Vec、Glove等算法来对这个诗歌语料库进行训练,生成古诗的向量模型。这些模型可以将每个语映射到一个高维向量空间中,其中每个维度代表了一个特定的语义属性。通过这些向量,我们可以了解同一主题或风格的诗歌中的常见语,也可以发现它们之间的关联和语义相似度。 利用这些古诗的向量模型,我们可以进行多种文本处理任务。例如,我们可以通过计算向量之间的相似度来进行诗歌的关联识别和相似度评估,进而实现诗歌的自动分类和推荐。同时,通过向量模型,我们还可以探索古诗的主题、情感、修辞手法等方面的规律和变化趋势,为文学研究提供新的视角。 总之,基于构建的古诗语料库,训练向量模型,能够帮助我们更好地理解和处理古诗文本。通过这些模型,我们可以挖掘出古诗的深层次信息,丰富了我们对古人文学创作的认识,并为相关研究和应用提供了有力的工具和基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值