
数据隐私
文章平均质量分 92
架构师研究会
有20多年IT工作经历,目前在一家500强做企业架构。因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享。
展开
-
【自然语言处理】第2部分:识别文本中的个人身份信息
Duckling是一个Haskell库,由Facebook开源,用于将文本解析为结构化数据。Duckling可以帮助我们在文本中找到不同类型的信息,包括信用卡号码、电子邮件地址和电话号码。现在别担心,如果你不是了解Haskell的三个人之一,我们可以将Duckling与任何编程语言一起使用。原创 2023-12-26 20:17:43 · 1130 阅读 · 0 评论 -
【自然语言处理】用Python从文本中删除个人信息-第二部分
根据维基百科,NER是:命名实体识别(NER)(也称为(命名)实体识别、实体分块和实体提取)是信息提取的一个子任务,旨在定位非结构化文本中提到的命名实体,并将其分类为预定义的类别,如人名、组织、位置、医疗代码、时间表达式、数量、货币值、百分比等。因此,这一切都是关于寻找和识别文本中的实体。一个实体可以是一个单词或一系列连续的单词。实体被分类到预定义的类别中。例如,在下面的句子中,发现了三个实体:实体人“Sebastian Thrun”、实体组织“Google”和实体日期“2007”。Spacy.io。原创 2023-12-25 21:12:24 · 1666 阅读 · 0 评论 -
【隐私保护】使用Python从文本中删除个人信息:第一部分
本文为自由文本提供了一个简单但非常有效的隐私解析器。改进总是可能的,但这段代码是从文本中过滤隐私信息的最佳方法。可以通过用标记化器替换算法来进行改进。这使得引入来测量单词之间的距离成为可能,从而支持删除有打字错误的单词。完整的代码可以在Github上找到:https://github.com/lmeulen/PrivacyFilter标签和例句是荷兰语,但源代码可以很容易地被其他语言所采用。在存储库中还有一个程序,用于收集荷兰语的不同数据集。请注意,这些操作将第一行添加到具有数据名称的数据文件中。原创 2023-12-25 21:01:14 · 1190 阅读 · 0 评论 -
【隐私保护】Presidio简化了PII匿名化
当我们将PII匿名化应用于现实世界的应用程序时,可能会有不同的业务需求,这使得直接使用预训练的模型具有挑战性。例如,想象一下,挪威的一家公司联系你,希望你为他们开发一个文本匿名器。他们希望它支持英文和挪威文中的匿名PII。除了常见的PII实体外,您还需要检测遵循某些校验和规则的挪威国民身份证号码。预先训练的NER模型很好,但如果不使用额外的标记数据来微调模型以获得良好的性能,就无法轻松添加新的实体类型。因此,有一个工具可以利用预先训练的模型,并且很容易定制和扩展功能,这是很好的。原创 2023-12-24 21:29:09 · 1292 阅读 · 0 评论 -
【数据保护】数据匿名的自定义NLP方法
消除真实世界私人数据识别的实用方法随着互联网服务的普及,人们对互联网隐私的渴望不断增长。近年来,诸如GDPR等不同的法律开始发挥作用,这些法律规范了服务收集私人信息的方式。这引起了每家公司对隐私方面的关注,并增加了对处理和匿名私人数据的投资。我在微软商业软件工程(CSE)团队的工作是与微软最具战略意义的客户合作。我们共同开发人工智能、大规模数据、物联网等领域的新工作负载。在与这些客户接触的同时,我们意识到,PII(个人身份信息)问题是许多希望在本地或云中扩展其解决方案集的公司反复出现的话题和障碍。原创 2023-12-24 21:21:11 · 1390 阅读 · 0 评论 -
【数据隐私】数据隐私执法行动加强
监管机构最近几天忙于对 Twitter、Meta (Facebook) 和 Clearview AI 等一些最知名的科技公司对违反数据隐私的行为采取执法行动和罚款。虽然数据分析和包括机器学习在内的人工智能等高级分析可以改变业务结果的游戏规则,但作为客户数据的管家也有很多责任。贵组织的数据治理负责人是否有效地跟踪最近有关数据隐私的执法行动?有哪些教训值得学习?一些备受瞩目的执法行动、和解和其他事件再...原创 2022-11-06 20:24:44 · 208 阅读 · 0 评论