白话机器学习算法(十五)文档与图片的特征提取(学习笔记)

互联网中大量的分类目标是文档,或者图片,如何才能提取这两者的特征?

对于文档,用的最多的是TF—IDF(词频-逆文档频率),我们可以用这个来找到每篇文章的关键词;

当有很多文档时候,我们可以利用这些文档的关键词组成一个并集,每个文档就可以形成一个向量,向量的坐标是这个并集,值是对应的这个词出现在这个文档中的次数;

最后利用两个文章对应的向量之间的余弦相似性来独立两篇文章的相似性;


关于图片:

最简单的是将图片量化,怎么量化?

方法一:

1)尺寸归一化,所有图片归一到同一个尺寸

2)灰度量化级减少,比如原来256个灰度,现在变成32个灰度

3)图片二值化,计算每个图片灰度的均值,大于均值的像素置一,小于均值置零

4)每个图片形成一个0-1向量,不同图片的向量之间算汉明距离即可

方法二:

利用图片灰度统计直方图

将图片的空间维度变为灰度维度上来看一副图片

方法三:

找到一个阙值,将图片二值化,使得前景与背景能最大限度的分开,直观的说就是二值化以后的图能很好的反映图片内容的轮廓,这样就是将图片变成一个0-1矩阵,再去算两者的汉明距离;


以上内容为读以下博客心得,仅仅作为个人学习的总结;

具体内容推荐:

http://www.ruanyifeng.com/blog/


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值