#Paper Reading# Private traits and attributes are predictable from digital records of human behavior

论文题目:Private traits and attributes are predictable from digital records of human behavior
论文地址:http://www.pnas.org/content/110/15/5802.full

论文大体内容:
本文作者通过一个简单的信息项:人们在Facebook上的Like(点赞)情况,使用SVD降维+逻辑回归+线性回归的模型,准确地推测出其它敏感信息项,包括:性取向、种族、宗教和政治观点、性格特征、IQ、幸福感、是否使用成瘾物质(吸烟、喝酒或吸毒)、父母是否离异、年龄、性别。

1、作者使用的dataset是由58000+名志愿者提供的Facebook里的个人信息,参与的问卷调查信息,Facebook Likes情况,平均数量是170个/人。

2、根据Likes构建User-Like矩阵,矩阵大小数量级为10M,然后根据SVD分解,一般取出top 100,而不同的用户只有小部分的情况,包括性取向、父母离异情况、成瘾物品的情况预测,取top 30,然后使用Logistic or Linear Regression,进行回归预测。

3、结果发现预测的准确率还是挺高的,非性格等需要问卷校验的平均准确率超过0.8,而其它性格特性等需要以问卷结果为校验标准的不怎么高,可能原因是问卷结果不一定准确,大家都可能是随便填写的。

4、作者也发现随着人们提供Like的数量越多,相应预测的准确率也越高。(这是肯定的,因为machine learning当然是好的数据越多越好)

5、最后,作者认为,除了Like的数据外,研究人员还能拿用户的浏览历史,搜索查询的内容,购买产品的信息等,对用户的其它信息进行更好的预测。一方面,更全面准确的用户画像当然能够提高产品或服务的质量,但另一方面,从用户公开的个人信息能够准确推导出用户其它很多的敏感信息,有可能会导致负面的影响,乃至对用户产生生命威胁等。所以这也是一把双刃剑。

6、思考:
随着数字化时代的到来,人们的隐私、信息泄露已经无可避免了。但大家都低估了信息泄露的轻易性,可能觉得公开一两项信息没什么大不了的,但这篇paper明确的告诉了我们,即使是简单的“like”,都会被别人轻而易举地推测出你其它很多的隐私信息。想到一部快要剧终的美剧“Person Of Interest”,假如以后真出现了剧中的AI,能够接入人们所有的网上信息(哪怕只有社交平台公开的信息),政府监控信号等,那么人类再无隐私可言。


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值