以图分类
需求:通过机器学习的方式,让机器学习认字
分类问题:输入图像,输出类别0_910类,+其他类
用dnn模型进行分类,输出函数用什么函数?
如果各个类别互斥,softmax
如果不互斥,如图像的情感分析
拒绝类怎么来:最好的方式随机生成,正常类有规律,拒绝类千奇百怪
图像存储
32*32像素,
将图像作为输入,应该怎么输入,二维拉一维,图像归一化
1确定神经网络的输入纬度m*n
2所有输入的图像,都经过resize过程,归一化m*n
一维输入……自由发挥(先用简单网络,慢慢变复杂)……softmax
简单:层数少,每层神经元少
简单的好处:时间短,过拟合不严重,泛华能力强
数据反馈系统:用户对模型识别,对于有规律容易弄混(3和8)额外训练,对于无明显的搜集,进行二次学习
总结:做ai项目的步骤
1吃透需求,掌握现有的条件,确定模型的选择
2搭建模型,进行训练,训练之前进行小批量测试
3上线和架构沟通
4定时收集数据,进行模型和策略方案,适时调整
以图识图
以图搜图
需求:输入图片找相似图片
思路:计算图像之间的相似度
图像……encode……low降纬度……decoder……图像计算两图之间的距离
根据距离,调整encoder和decode,加入噪声,增加两参数的泛华能力
深度学习最大的惊喜:特征自动学习
encoder着重保存骨架信息,decode着重还原信息
编码:
通信领域:信号无损传递,在传的过程中抵抗噪声的干扰,信号可以理解为几乎没有噪声
机器学习领域:编码是有损编码,希望通过编码对特征提取,踢出信息量少的信息,原因信息本身有噪声
拓展:
公安局从图库中找疑似图片怎么解决?
需要重视准备率,重视召回率,宁可没那么难,也不能漏
构架一样,只是要放在大箱子里,原因,特征纬度高,每个图像只能选择几个
倒排索引:
我要学习机器学习 在100亿文章中取
离线对机器学习的的一种组织方式
将文章分词 机器……doc1,doc3