中文单词的表示以及相似度计算方法

词的独热表示(one-hot representation)

  • boolean representation
  • count representation

给定一个词典:[我,是,计算机专业,的,学生]

1、求给定单词的表示:

            我:[1,0,0,0,0]

             计算机专业:[0,0,1,0,0]

             学生:[0,0,0,0,1]

每个单词的长度是词典的长度,词典长度为5,对于词典和第一个单词”我“来说,词典中”我“出现,因此该位置为1,”是“没有出现,该位置为0,“计算机专业”没有出现,该位置为0,“的”没有出现,该位置为0,“学生”没有出现,该位置为0。因此单词“我”的表示为[1,0,0,0,0]。

2、求给定句子的表示

         给定一个词典:[我,去,打,篮球,又,逛街]

        boolean representation --在表示时,只要词典中的词在句子中出现,都标记为1,不管出现几次。

            S = 我去打篮球又去逛街:[1,1,1,1,1,1]

            T = 我去打篮球:[1,1,1,1,0,0]

       count representation--在表示时,需要标记词典中的词在句子中出现的频次,比如,“去”字,出现两次,在相应位置标记

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值