互联网中大量的分类目标是文档,或者图片,如何才能提取这两者的特征?
对于文档,用的最多的是TF—IDF(词频-逆文档频率),我们可以用这个来找到每篇文章的关键词;
当有很多文档时候,我们可以利用这些文档的关键词组成一个并集,每个文档就可以形成一个向量,向量的坐标是这个并集,值是对应的这个词出现在这个文档中的次数;
最后利用两个文章对应的向量之间的余弦相似性来独立两篇文章的相似性;
关于图片:
最简单的是将图片量化,怎么量化?
方法一:
1)尺寸归一化,所有图片归一到同一个尺寸
2)灰度量化级减少,比如原来256个灰度,现在变成32个灰度
3)图片二值化,计算每个图片灰度的均值,大于均值的像素置一,小于均值置零
4)每个图片形成一个0-1向量,不同图片的向量之间算汉明距离即可
方法二:
利用图片灰度统计直方图
将图片的空间维度变为灰度维度上来看一副图片
方法三:
找到一个阙值,将图片二值化,使得前景与背景能最大限度的分开,直观的说就是二值化以后的图能很好的反映图片内容的轮廓,这样就是将图片变成一个0-1矩阵,再去算两者的汉明距离;
以上内容为读以下博客心得,仅仅作为个人学习的总结;
具体内容推荐:
http://www.ruanyifeng.com/blog/