XiaoHu日志 11/22~12/3

11/22 购置了华为云服务器,将学校服务器上的所有内容转到了新服务器上,并复制了原数据库。经调试后所有功能启动,原服务器暂停运行,作为应急备份。

11/24 在谈话中明确了算法的方向。XiaoHu曾经走过概率化和规则化两种意图识别的方式,在尝试过两种方案后,我得到了概率化惨不忍睹的结果。于是我投入规则的怀抱,利用表达式的思想搞了句式拟合算法。当时我只知道这种方法在XiaoHu的环境里表现良好,但并没有过多总结。今天终于知道是因为我的数据量太少才导致无法用训练的方式得出模型,一般的神经网络模型少则需要104的数量级,而我每个技能的语料也就是101的数量级,这103的差异导致网络会把数据中的误差无限放大,因为增大数据量才能使误差变小,而现在的结果是网络把误差总结为了规律。而规则化的方法则在少量语料的环境中表现良好,所以我才使用了句式拟合。但是规则算法的最大短板是它非常依赖于规则的合理性,如果两个规则中出现了交集,那么就会出现识别出多个意图的情况,还需要搞出对应的分数来确定到底选哪个意图,现在我用的是体积分数。

所以现在如果想做大数据量的学习,只能把从其他网上开放的语料改一下,做数据迁移,但是网上都是打车、客服等语料,谁会搞学生查课查成绩的语料?大规模学习难如登天。

剩下的一条路线是对规则的改进。我总结出出现意图混淆的原因是纯基于名词、动词排列的意图判断是没有较高判别性的,如果要提高判别性,只有把句子中其他的词汇也利用上,但是也不能让语料中的所有词性都在用户语句中全部出现,所以我之前计划采用一个分数的设定,名词动词具有较高分数,介词副词具有中等分数,其他词汇分数较低,形容词则忽略。对于每个技能都要指定不及格的阈值和确定意图的阈值,而且每个技能下每个词性的权值都要单独确定。我可以对于权值采取拟合式的措施,但是人工拟合还是机器拟合?还需要判断。

另外我还发现可以直接用句式拟合实现槽填充。一句话来说,只需要把对应的slot理解为一个名词。这里的slot可看做相同性质entity的集合,一个entity由若干有表示度的word来表示。在匹配时它们自下而上互相决定,这个思想我在给服装设计俱乐部开发的机器人里有体现。

11/28 和孙老师进行谈话。确定了XiaoHu与垃圾分类的合作方向,包括对于某种物体的垃圾归属查询,一些其他细碎的功能并入校园百事通。

12/1 发现了一个比原来用的苏州的垃圾分类网站更好的北京的垃圾分类网站。它在我校园场景下的测试里表现良好。我通过小爬虫爬取上面的数据来为我所用,为了应付用户有时的长短语查询如“苏格兰奶茶”,我在整体查询失败后,会分词并对每个分出来的词来查询,在有查询结果的子词中挑取体积最大的。

我还在一篇blog上看到了一个新颖的思路:识图垃圾分类。具体逻辑就是通过对物体图像的识别确定物体的种类如“纸张”,然后再把这个结果套进数据库里。这样其实是让数据库的输入更加稳定,像之前的课表查询一样把输入确定在某一集合之内,是方便我维护的,而且这个想法也很酷。

12/2 想好业务逻辑后,开始动手实现垃圾分类。全程没有什么阻碍,两个小时把两个功能全部实现,测试体验良好。晚上回家完成了内部用户机制,垃圾分类作为体验功能开放,为所有有体验权限的粉丝团员分配了只能生效一次的激活码来激活权限。

晚上时收到一名粉丝的反馈,她发现iphone在用微信里的拍照给XiaoHu拍摄照片时XiaoHu经常有“出现故障”的问题。我在后台进行观察调试后,发现出现故障是因为后台的处理时间超过了5s,而耗费最多时间的是图像识别的部分,推理得出图像识别时间与图像文件大小正相关。所以我计划通过压缩的方式减少图像大小,使用PIL.image的quality来控制。我本以为这个过程会很好写,谁知道我却深陷在base64,byte,二进制文件和image间的互相转化泥潭里。在折腾两个小时后,我最终选择生成两个缓存文件来保存压缩前图片和压缩后图片,用完即删。但调试完测试时,我发现不加压缩时的微信拍照小虎也是不会出现故障的,生产环境的代码没有改,相当于自变量只有时间,也就是折腾一晚上后我发现我什么作用也没有起到。

12/3 XiaoHu在没有查询到一个物体的查询结果后,会把这个物体记入数据库以便我来处理这些没有被照顾到的数据,我对数据库进行了整体并加了去重。在测试时我发现生产环境里的XiaoHu竟然在处理普通照片时都会花费很长的时间,甚至超时。我在测试环境里测试时,XiaoHu压缩图片后的图像识别速度明显变快。最终我把图像压缩更新到了生产环境里,测试时表现良好。我设定了300kb是图像处理是否超时的阈值,XiaoHu的图像压缩最多只能到原大小的10%,所以我让XiaoHu在接受到3mb以上图像时就拒绝处理,这种情况一般是用户发了“原图”。所以我昨天的一晚上还是有很大作用的,至于为什么出现两天两次测试结果的差异状况,我认为是我测试用的iphone型号太老,摄像头拍摄的照片本身就在300k以内,而我的手机拍摄的照片偏大,微信压缩后有的照片都超过了300k,导致了XiaoHu的超时。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值