杂谈——关于“数据”本身的思考

这几天扫略了几本书和一些文字,难免会有一些想法。

  • 数据格式

数据是一切的根本。常见的数据类型有图像、文本和声音。

  • 数据表达的方式?

图像——二维数字数组;
文本——(可能是)词频向量
声音——时间和强度的一维数组

  • 为什么这么表达?
    计算机不能直接处理原始文本,文本必须转换成数字,即将原始数据向量化表达。

比如,文本
机器学习这样的技术比较喜欢被定义好的固定长度的输入和输出,因此不固定输入输出是文本建模的一个问题。所以,出现了词袋模型?——舍弃文本中的大部分解结构,而只统计词频,这样不仅简化了而且也达到了固定输入的效果!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值