这几天扫略了几本书和一些文字,难免会有一些想法。
- 数据格式
数据是一切的根本。常见的数据类型有图像、文本和声音。
- 数据表达的方式?
图像——二维数字数组;
文本——(可能是)词频向量
声音——时间和强度的一维数组
- 为什么这么表达?
计算机不能直接处理原始文本,文本必须转换成数字,即将原始数据向量化表达。
比如,文本
机器学习这样的技术比较喜欢被定义好的固定长度的输入和输出,因此不固定输入输出是文本建模的一个问题。所以,出现了词袋模型?——舍弃文本中的大部分解结构,而只统计词频,这样不仅简化了而且也达到了固定输入的效果!