Word2Vec + Jieba 分词实现视频标签距离计算

本文介绍了如何结合Word2Vec和Jieba分词技术来计算视频标签的距离。首先通过Python和Jieba对文本进行分词处理,然后利用Word2Vec模型创建并训练词向量,最后计算不同标签之间的相似度。在实践中遇到了编码问题,文中给出了相应的解决方案。
摘要由CSDN通过智能技术生成

Word2Vec + Jieba 分词实现视频标签距离计算

看[Word2vec][1]有一点时间了,不是很理解里面的算法所以决定先亲手实践试试看。

  • 分词实现
  • Word2vec学习实现

分词实现

首先将文章保存成了txt的格式,用python读取txt,并最终将分词结果存入txt文件中。其中还做了一次编码转换。

#coding:utf8
import jieba

# 文字转码 保留片段
conv_input_file_name = 'a.txt'
conv_output_file_name = 'b.txt'

def ucodeConvert(conv_input_file_name,conv_output_file_name):
    fin = open(conv_input_file_name, 'r')
    fout = open(conv_output_file_name, 'w')
    line = fin.readline()

    while line:
        try:
            newline = line.decode('GB2312').encode('utf-8')
        except UnicodeError:
            print 'Unicode Convert Error'
            break
        else:
            print >> fout,newline
            line = fin.readline()
        finally:
            fin.close()
            fout.close()

    print 'Convertion end'

#分词 
seg_input_file_name = 'input_doc.txt'
seg_output_file_name = 'segment_result.txt'

def wordSegment (seg_input_file_name, seg_output_file_name):
  
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值