B 站 CEO 的身份证被上传到 GitHub 了?

这操作确实够吓人的。

网友就表示:恐成社工库利器啊!

9aa4d36650fc3bfc3a78692cbcf3880d.png

不过恐慌之际,眼尖的网友们很快发现了问题:

显示的身份证号其实是假的,其中出生年份和校验位明显都是错的。

陈睿应该是 1978 年生,而这里的证件号上显示为 1988。

叔叔我啊,变年轻了

79f7748577438c57c180fe2bb5529d9a.png

也就是说,这串所谓的身份证号,其实是 GitHub Copilot 自动生成的假数据

这让人们提起来的心稍微放下了一些。

但是原本是生成代码的 GitHub Copilot,怎么会生成个人隐私信息呢?

吃了的,不经意又吐出来


这和 GitHub Copilot 的工作原理有一定关系。

GitHub Copilot 由 Codex 模型支持,它可以看做是 GPT-3 的升级版,既能看懂代码、也能看懂自然语言。

一方面,GitHub Copilot 为了能看懂注释,需要接受像 GPT-3 一样的语言训练。

语言模型在生成结果时,往往会随机表现出某些训练数据的特征。

也就是模型 “记住了” 见过的数据信息,处理任务时,把它 “吃进去” 的训练数据又 “吐了出来”。

而对于 GPT-3、BERT 这些超大型语言模型来说,训练数据集的来源往往包罗万象,大部分是从网络公共信息中抓取,其中免不了个人敏感信息,比如姓名、地址、身份证号等等。

有人就表示,b 站高层的个人信息可能早就被人恶意曝光了。

23d5a82da4b1a7f45d310dab71b7f1e3.png

这一次很可能是 GitHub Copilot 在生成结果时,随机表现出了一些训练数据的特征,这部分数据刚好来自陈睿的隐私信息。

事实上,GitHub 的 CEO Nat Friedman 也回应过类似的问题。

他表示 GitHub Copilot 给出的隐私信息都是假的,是通过训练数据合成而来。

而前不久曝出的 Copilot 抄袭大神代码、原版注释一事,直接让 Nat 这番回应啪啪打脸。

自动生成的代码不仅和原版一样,连 “what the fuck” 那句注释也用上了。

651ba381d83f3cbc6456cc63d4ad8be3.gif
GitHub Copilot 复刻 Quake 代码

另一方面,GitHub Copilot 是由数十亿行公开代码训练的。

有人认为,这可能是训练集中的原始代码就违反了相关隐私条款。

GitHub Copilot 受到错误代码的影响,意外把陈睿的个人信息从数据集里套了出来。

0ecfc0717713c58e984304e310272bd7.png

虽然这次情况可能只是个意外,但是也暴露了 GitHub Copilot 在安全隐私上存在许多风险。

有网友就对 GitHub Copilot

必看视频!获取2024年最新Java开发全套学习资料 备注Java

的敏感信息处理,表示担忧:

倒是说会对敏感信息处理,但是我觉得总会有漏的。

36a01201bf90116077ce5715caa20f98.png

小米开源技术委员会主席、小米副总裁崔宝秋则表示,这提醒了用户要注意自己的安全隐私保护,个人数据要记得匿名化。

969760e3b0ee8619b4451255b04caffb.png

GitHub Copilot 争议不断


事实上,GitHub Copilot 从上线以来就争议不断:

读者福利

秋招我借这份PDF的复习思路,收获美团,小米,京东等Java岗offer

更多笔记分享

秋招我借这份PDF的复习思路,收获美团,小米,京东等Java岗offer


事实上,GitHub Copilot 从上线以来就争议不断:

读者福利

[外链图片转存中…(img-75g7WdJl-1716436499278)]

更多笔记分享

[外链图片转存中…(img-K1FISHQP-1716436499279)]

  • 17
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值