#Paper Reading# Private traits and attributes are predictable from digital records of human behavior

最新推荐文章于 2023-02-21 14:21:34 发布

John159151

最新推荐文章于 2023-02-21 14:21:34 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/John159151/article/details/51623211

版权

paper reading 同时被 2 个专栏收录

99 篇文章 4 订阅

订阅专栏

User Profiling

1 篇文章 0 订阅

订阅专栏

论文题目：Private traits and attributes are predictable from digital records of human behavior
论文地址：http://www.pnas.org/content/110/15/5802.full

论文大体内容：
本文作者通过一个简单的信息项：人们在Facebook上的Like（点赞）情况，使用SVD降维+逻辑回归+线性回归的模型，准确地推测出其它敏感信息项，包括：性取向、种族、宗教和政治观点、性格特征、IQ、幸福感、是否使用成瘾物质（吸烟、喝酒或吸毒）、父母是否离异、年龄、性别。

1、作者使用的dataset是由58000+名志愿者提供的Facebook里的个人信息，参与的问卷调查信息，Facebook Likes情况，平均数量是170个/人。

2、根据Likes构建User-Like矩阵，矩阵大小数量级为10M，然后根据SVD分解，一般取出top 100，而不同的用户只有小部分的情况，包括性取向、父母离异情况、成瘾物品的情况预测，取top 30，然后使用Logistic or Linear Regression，进行回归预测。

3、结果发现预测的准确率还是挺高的，非性格等需要问卷校验的平均准确率超过0.8，而其它性格特性等需要以问卷结果为校验标准的不怎么高，可能原因是问卷结果不一定准确，大家都可能是随便填写的。

4、作者也发现随着人们提供Like的数量越多，相应预测的准确率也越高。（这是肯定的，因为machine learning当然是好的数据越多越好）

5、最后，作者认为，除了Like的数据外，研究人员还能拿用户的浏览历史，搜索查询的内容，购买产品的信息等，对用户的其它信息进行更好的预测。一方面，更全面准确的用户画像当然能够提高产品或服务的质量，但另一方面，从用户公开的个人信息能够准确推导出用户其它很多的敏感信息，有可能会导致负面的影响，乃至对用户产生生命威胁等。所以这也是一把双刃剑。

6、思考：
随着数字化时代的到来，人们的隐私、信息泄露已经无可避免了。但大家都低估了信息泄露的轻易性，可能觉得公开一两项信息没什么大不了的，但这篇paper明确的告诉了我们，即使是简单的“like”，都会被别人轻而易举地推测出你其它很多的隐私信息。想到一部快要剧终的美剧“Person Of Interest”，假如以后真出现了剧中的AI，能够接入人们所有的网上信息（哪怕只有社交平台公开的信息），政府监控信号等，那么人类再无隐私可言。

以上均为个人见解，因本人水平有限，如发现有所错漏，敬请指出，谢谢！