文本向量化浅析

       在解释文本向量如何向量化之前,先要明白文本为什么要向量化?如果你向计算机中输入“明天我要出去玩”,计算机不知道你要做什么,因为他识别不了这样的语言,但是你和计算机说0101,他就能明白你的意思。所以,非结构化数据,像语音、视频、文字等等,在输入到人工智能算法之前,都要先转化为能代表他们的特征或矩阵。

       就像26个英文字母是没有意义的,但是每个中文词汇都有一个对应的、由他们组成的英文单词,如苹果和“apple”。“我有一个苹果”这句话能根据中英转换的规则变成“I have a apple”,就可以根据另一种规则转化成既能代表这句话又能被计算机识别的语句(向量/矩阵)。

        由于输入到算法中训练的是转化后的矩阵/向量,所以文本向量化后所带的特征信息是区别其他文本的重要依据。一个文本语句在进行向量化之前,就已经经过了文本预处理和分词,去掉各种语气词并变成了一个个词语。如:明天你回家不回家啊。会去掉“啊”这种语气词,同时,根据词库,“明”和“天”会被当成一个词处理,最后分词结果会是“明天/你/回家/不/回家”,而不是“明/天/你/回/家/不/回/家”。

        如果简单的按照词语出现的频率来向量化,“明天/你/回家/不/回家”,就会对应成(1,1,2,1),其中“回家”的频率是两次。而实际上ÿ

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值