中生代技术
链接技术大咖,分享技术干货
接力技术,链接价值
IT之家报道:9月12日上午,李开复在 HICOOL 全球创业者峰会上表示,曾在早期帮助旷视科技公司找了包括美图和蚂蚁金服等合作伙伴,让他们拿到了大量的人脸数据,并在随后的摸索过程中找到了有价值的商业化方向。
IT之家了解到,蚂蚁集团随后否认了与李开复有过合作且目前双方已无相关业务合作。
蚂蚁集团回应称:蚂蚁集团在与旷视科技合作事宜上从未与李开复先生有过接触,从未提供任何人脸数据给旷视科技,双方过往合作仅限旷视科技授权其图像识别算法能力给蚂蚁单独部署和使用,不涉及任何数据的共享和传输。
对于该事件,李开复表示:曾建议并帮助旷视团队寻找更多应用合作伙伴;合作中,旷视提供 AI 技术给到合作方,我理解数据一直存在合作方客户服务器中,不涉及任何数据的共享与传输。
对此,旷视科技再次回应称:在客户合作的过程中,将始终尊重并致力于协助客户确保数据安全。其不掌握,也不会主动收集终端用户的任何个人信息。
以下是知乎答主Tao精彩分享,首发于知乎,经作者授权转载
https://www.zhihu.com/question/420809179
此情此景和当年百度CEO李彦宏的那次演讲何其相似
“我想中国人可以更加开放,对隐私问题没有那么敏感,如果他们愿意用隐私交换便捷性,很多情况下他们是愿意的,那我们就可以用数据做一些事情。但我们要遵循一定的原则,如果数据会使用者收益,他也愿意,我们就会去做,这是我们的基本原则,这就是什么该做的,什么不该做。”——李彦宏 2018年3月26日
机器学习界有一句很出名的话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
本人最近刚做了一个NLP的项目,对于数据来源这个问题感受颇深。模型不好可以调参可以换,但是数据量不够就什么也做不了了。优质的数据太少,导致训练集的样本量根本不够,模型的accuracy就上不去,accuracy上不去,模型就没有应用的价值。所以对于机器学习来说,数据的质量至关重要。
数据挖掘项目中一般需要三个数据集:
1. 训练集
2. 验证集(一般是从训练集中按比例分离出来的)
3. 测试集
假设我们把机器学习过程比喻为一个高中生学习数学。那么训练集就是课本中的课程内容,用于让学生了解新的知识。验证集就是课后习题,学生学完课本知识后会通过课后习题来验证自己是否学习正确,如果写错了题,就要查漏补缺,纠正错误。测试集就像期末考试,虽然学生已经学完了课本上的内容,也通过了课后习题的考验,但真实水平还不知道,最终就要通过测试集来考验一下学生的真实水平。(比喻可能比较粗糙,有错误欢迎大家指导,谢谢~)
因此,只有学生学的知识越多,做的练习题越多,相应的期末考试得高分的概率也会越高
每个神枪手都是大量的子弹喂出来的。同理,每个好的模型也都是靠大量的优质数据喂出来的,更何况旷视科技这么出名的AI独角兽,如果没有足够的样本量支撑,是如何喂出这么牛逼的算法的?
像李开复这样的老一辈资本家可能并没有意识到隐私对于国人的敏感性和严重性,传统观念中资本剥夺的是我们的时间和体力,但现在隐私也成了我们每个人的专属价值。导致祸从口出。而且这三方紧急商议的事后回应更像是“此地无银三百两”。仿佛在向我们传达:“虽然你们已经知道了,但是面子工程我们还是要做一下的。"
但是转念一想,我们又有什么办法呢。大数据杀熟已经成了常态,每个人被做成数据保存在云端数据库里,在那里我们只是一个ID+一堆标签而已,随着商业交易我们的数据也被卖来卖去,直到被榨干最后一丝价值,如何反抗?不用淘宝?不用微信?太难了!
每天看着微信给我推的广告,把我都给看吐了,真就用大数据噶韭菜呗
资本无善类
向大家分享两个查看自己注册信息是否泄露过的网站
https://monitor.firefox.com/
输入自己的邮箱即可查看是否该邮箱注册过的账户信息泄露过
还有一个类似的网站
https://haveibeenpwned.com/
最后,希望大家注重隐私,大家要明白,自己的隐私也是属于自己的重要价值。
作者简介
TaoPython数据分析/前机械工程师/ 数据挖掘
https://www.zhihu.com/people/tao081017
4年机械工程师经验,后0基础转行Python数据分析,帮助10+名小伙伴转行数据分析,提供付费转行指导~
希望大家踊跃提问,问的越多,你的收货就越多~
-- 精彩推荐--
蚂蚁资深算法专家周俊:从原理到落地,支付宝如何打造保护隐私的共享智能?
END
#接力技术,链接价值#
点分享点点赞点在看
↓点这里可看知乎精彩问答