当白宫公布由七家人工智能公司签署的自愿安全和社会承诺清单时,有一件事明显缺失:与这些人工智能系统收集和用于训练这种强大技术的数据有关的任何内容,很可能也包括你的。
许多人担心复杂的生成式人工智能系统对公众造成的潜在危害。他们如何处理我们的数据就是其中之一。对于这些模型从哪里获得所需的千T级数据,如何使用这些数据,以及在涉及敏感信息时采取了什么保护措施(如果有的话),我们知之甚少。制造这些系统的公司并没有告诉我们太多,甚至他们自己也不知道。
你可能对这一切都很满意,或者认为生成式人工智能所带来的好处远远超过构建它所带来的坏处。但还有很多人不是。
两周前,一条疯传的推文指责谷歌从谷歌文档中获取数据,以训练其人工智能工具。在后续文章中,作者声称谷歌“多年来一直使用文档和电子邮件来训练他们的人工智能”。最初的推文有近1000万的浏览量,被转发了数千次。这甚至可能不是真的,这个事实几乎是无关紧要的。(谷歌表示,除非获得用户许可,否则不会使用其免费或企业工作空间产品(包括Gmail和Docs)的数据来训练其生成式人工智能模型,不过它确实使用匿名数据训练了一些工作空间人工智能功能,如拼写检查和智能撰写。)
莱恩·克拉克森(Ryan Clarkson)的律师事务所负责对OpenAI、微软(Microsoft)和谷歌(Google)发起的集体诉讼,他说:“到目前为止,科技公司还没有像现在这样利用生成式人工智能(generative AI),把每个人的信息输入一种产品,然后导致人们的职业过时,并以一种以前难以想象的方式彻底摧毁他们的隐私。”
谷歌的总法律顾问哈利玛·德莱恩·普拉多(Halimah DeLaine Prado)在一份声明中表示,该公司已经明确表示,它使用了来自公共来源的数据,并补充说,“美国法律支持利用公共信息创造新的有益用途,我们期待反驳这些毫无根据的说法。”
然而,我们对自己的信息究竟拥有哪些权利,仍在诉讼、工人罢工、监管机构调查、行政命令以及可能出台的新法律中得到解决。这些公司将来可能会处理你的数据,但你能对这些公司已经获取、使用并从中获利的数据做些什么呢?答案可能不是很多。
生成式人工智能公司渴望得到你的数据,他们是这样得到它的。
简而言之,生成式人工智能系统需要尽可能多的数据来进行训练。他们得到的越多,就越能更好地模拟人类的声音、表情、说话和写作。互联网提供了大量的数据,这些数据很容易通过网络抓取工具和api被吞噬。但这种“狼吞虎咽”的过程并不区分受版权保护的作品和个人数据;如果它在那里,它就会占据它。
“在缺乏有意义的隐私法规的情况下,这意味着人们可以在互联网上广泛地抓取任何‘公开可用’的东西——这是互联网的顶层,因为没有更好的术语——并将其用于他们的产品中,”本·温特斯说,他是电子隐私信息中心人工智能与人权项目的负责人,并参与撰写了关于人工智能危害的报告。
这意味着,在你不知道的情况下,很明显,一些网站被抓取的公司可能正在利用你的数据来推动一项你根本不知道有可能实现的技术。这些数据可能早在这些公司存在的几年前就已经发布在互联网上了。它可能根本不是你发布的。或者你可能认为你向公司提供你的数据是为了一个你觉得没问题的目的,但现在你担心它被用于其他目的。许多公司的隐私政策一直在更新和改变,这可能正是他们所做的。他们通常会说,你的数据可以用来改进他们现有的产品或开发新的产品。可以想象,这包括生成式人工智能系统。
更糟糕的是,生成型人工智能公司在披露其数据来源方面非常谨慎,通常只是说这些数据是“公开可用的”。甚至Meta为其第一个LLaMA模型提供的更详细的资源列表也涉及到像“Common Crawl”这样的东西,它是整个互联网的开源存档,以及像Github、维基百科和Stack Exchange这样的网站,它们也是巨大的信息库。(Meta并没有透露刚刚发布的《羊驼2》所使用的数据。)所有这些来源都可能包含个人信息。OpenAI承认,它使用个人数据来训练模型,但它表示,这些数据是“偶然”发现的,只是为了让“我们的模型更好”,而不是为了向他们出售广告而建立个人资料。
谷歌和Meta拥有大量的个人用户数据,他们说他们现在不会用来训练他们的语言模型,但我们不能保证他们将来不会这样做,特别是如果这意味着获得竞争优势的话。我们知道谷歌多年来扫描用户的电子邮件是为了投放定向广告(该公司表示它不再这样做了)。Meta在与包括剑桥分析公司(Cambridge Analytica)在内的第三方共享数据时,陷入了重大丑闻,并被处以50亿美元的罚款,后者随后滥用了这些数据。事实是,这些公司给了用户很多理由,让他们不要把它们关于数据隐私的保证或生产安全系统的承诺当真。
克拉克森说:“大型科技公司的自愿承诺需要一定程度的信任,这是他们应得的,也是他们没有赢得的。”
版权、隐私法和“公开可用”的数据
对于创作者——例如作家、音乐家和演员——版权和肖像权是一个主要问题,原因很明显。生成式人工智能模型都经过了工作训练,未来可能会让它们失业。
这就是为什么喜剧演员莎拉·西尔弗曼将OpenAI和Meta作为集体诉讼的一部分起诉的原因。她声称,这两家公司通过使用包含她的书《尿床者》(the Bedwetter)文本的数据集,对她的书面作品进行了培训。还有关于图像权和使用开源计算机代码的诉讼。
生成式人工智能的使用也是作家和演员罢工的原因之一,他们的工会WGA和SAG-AFTRA都担心工作室会根据艺术家的文字和图像训练人工智能模型,然后简单地生成新内容,而不补偿原始的人类创作者。
但是你,一个普通人,可能没有知识产权需要保护,或者至少你的生计可能不依赖于它。所以你可能更关心像OpenAI这样的公司如何保护你的隐私,当他们的系统把它挖出来,重新混合,然后吐出来。
监管机构、立法者和律师也在思考这个问题。意大利的隐私法比美国更严格,甚至因为隐私问题暂时禁止了ChatGPT。其他欧洲国家也在考虑对ChatGPT进行自己的调查。美国联邦贸易委员会(Federal Trade Commission)也将目光投向了OpenAI,调查其可能违反消费者保护法的行为。该机构还明确表示,将密切关注生成式人工智能工具。
但联邦贸易委员会只能在法律允许的范围内执行。拜登总统鼓励国会通过与人工智能相关的法案,许多国会议员也表示希望这样做。然而,国会行动迟缓是出了名的,在监管或保护消费者免受社交媒体平台的侵害方面几乎没有采取任何行动。立法者可能会从中吸取教训,在人工智能问题上采取更快的行动,否则他们可能会重蹈覆辙。事实上,在生成人工智能向公众介绍之后,人们很快就有兴趣做一些事情,这是有希望的。
温特斯说:“人们提出立法并表示希望对人工智能采取行动的速度,比其他任何问题都快900万倍。”
但也很难想象国会会对数据隐私采取行动。美国没有联邦消费者在线隐私法。13岁以下的儿童确实得到了一些隐私保护,那些通过了自己的隐私法的州的居民也是如此。某些类型的数据也受到保护。这使得全国各地的许多成年人几乎没有数据隐私权。
我们可能会关注法院,以找出生成式人工智能如何与我们现有的法律相适应,这正是克拉克森等人的切入点。
“这是人们通过这些诉讼发出自己声音的机会,”他说。他说:“我认为,他们将要求在一些问题上采取行动,到目前为止,我们通过其他渠道还没有取得太大进展。透明度、选择退出的能力、补偿、数据的道德来源——诸如此类的事情。”
克拉克森律师事务所(Clarkson Law Firm)的合伙人蒂姆·佐丹诺(Tim Giordano)也在处理这些案件,他表示,在某些情况下,现有法律没有明确规定人们对生成人工智能的权利,但法官可以将其解释为适用于这些案件。在其他国家,比如加州的隐私法,它要求共享或出售人们数据的公司给他们一个选择退出和删除他们信息的方法。
佐丹奴说:“目前,这些模特没有办法删除他们了解到的关于我们的个人信息,所以我们认为这是侵犯隐私的一个明显例子。”
例如,ChatGPT的选择退出和数据删除工具仅适用于使用ChatGPT服务的用户收集的数据。它确实有办法让“某些司法管辖区”的人们现在选择不让OpenAI的模型处理他们的数据,但它也不保证它会这样做,它要求你提供证据证明你的数据首先被处理了。
尽管OpenAI最近改变了政策,不再使用自己客户提供的数据来训练模型,但另一个隐私问题是,当你使用这些模型时,这些模型如何使用你提供给它们的数据,以及它们向外界发布的信息。OpenAI首席执行官萨姆·奥特曼(Sam Altman)对CNBC表示:“客户显然希望我们不要用他们的数据进行训练。”这表明,人们对自己的数据被用来训练人工智能系统感到不舒服,尽管只有一些人有机会选择不这样做,而且是在有限的情况下。与此同时,OpenAI因ChatGPT的回复而被起诉诽谤,该回复错误地声称有人从一家非营利组织诈骗并窃取了资金。这并不是ChatGPT唯一一次对某人进行虚假指控。
那么你现在能做些什么呢?这就是这里棘手的地方。现在的许多隐私问题都是由于过去没有通过真正的、有意义的隐私法,这些法律可以在这些数据集和技术出现之前保护你的数据。你可以尽量减少你现在放出来的数据,但是你不能对已经被抓取和使用的数据做太多的事情。你需要一台时光机才能做到这一点,即使是生成式人工智能也无法发明这样的机器。