震惊!让90%的程序员一看就会的入门级AI项目!

随着AI的发展,美国橡树岭国家实验室的一些专家预测,到2040年,AI技术将会强大到足以替代程序员。AI技术将会强大到足以替代程序员,AI编写软件将比人类程序员更好、更快。换句话说,软件编写的软件比人类编写的更好。

这是怎么发生的?AI能真正学会如何做需要高度创造性的智力工作吗?毕竟创造性一直被认为是人类特有的。AI能学到的东西会比我们教它的更多吗?

稳住,别慌今天本文将分享一篇AI入门实战的项目经验分享,专门为对于没有动过手的同学准备,以此来启发新手们如何开动,了解AI技术~

汉字书法识别入门

前段时间参加了一次TinyMind举办的汉字书法识别挑战赛,说是挑战赛其实就是一场练习赛。为一些刚刚入门的同学和没有比赛经验的同学提供了一个探索图像识别领域的平台。我目前是暂列榜首(没想到转眼就被超越了-。-),所以把自己的思路和想法稍微做一个分享,给有需要的人提供一个base line。

先来看数据集~~

100个汉字的训练集
10000张书法图片的测试集

上面的训练集总共有100个汉字,每一个汉字都有400张不同字体的图片,数据量上来看算是一个比较小的数据集。

等等,看到的确定是汉字吗,第一眼望过去我是真的emmmmm.....甲骨文,篆体各种字体都冒出来了。先喝口水冷静一下,仔细看一看发现图片都是gray的。想了一想突然觉得这个和mnist并没有太大的区别只是字体更加复杂一些,可能要用稍微深一点的网络来训练。

图片看完了,那么开始撸代码了。分析终究是分析,还是实践才能说明一切。

数据集划分

竞赛中只给了train和test,所以需要自己手动划分一个val来做模型训练的验证测试。在这里简单说明一下经常用的两种划分数据集的方法。

  • 本地划分

  • 内存划分

本地划分:图片是按照文件夹分类的,所以只需要从每个文件夹中按ratio抽取部分图片到val中即可,当然不要忘记了shuffle。
内存划分:把所有图片和标签读进内存中,存为list或者array然后shuffle后按长度划分。前提是把数据读进去内存不会爆炸掉。内存划分只适合小型数据集,不然会Boom!!!

注:划分数据集的时候一定要打乱数据,shuffle很重要!!!

def move_ratio(data_list, original_str, replace_str):
    f
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值