Python
文章平均质量分 87
架构师研究会
架研年近半百 ,有20多年IT工作经历,目前在一家500强做企业架构。因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享。
最近因为工作需要打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
不满足是向上的车轮,是我的座右铭。
展开
-
【自然语言处理】第3部分:识别文本中的个人身份信息
是一个流行的Python库,包含预先训练的人工智能模型,可用于各种自然语言处理(NLP)任务,包括命名实体识别(NER)。正如我们在前几篇文章中所讨论的,NER是一种非常有用的检测文本中PII的技术。原创 2023-12-27 21:21:41 · 1602 阅读 · 0 评论 -
【自然语言处理】第2部分:识别文本中的个人身份信息
Duckling是一个Haskell库,由Facebook开源,用于将文本解析为结构化数据。Duckling可以帮助我们在文本中找到不同类型的信息,包括信用卡号码、电子邮件地址和电话号码。现在别担心,如果你不是了解Haskell的三个人之一,我们可以将Duckling与任何编程语言一起使用。原创 2023-12-26 20:17:43 · 983 阅读 · 0 评论 -
【自然语言处理】扩展命名实体识别器(NER)以使用spaCy标记新实体
标记单词的顺序-简洁明了。这篇文章假设读者对从文本中提取实体有一些概念,并希望进一步了解新的自定义实体识别的最先进技术以及如何使用这些技术。然而,如果你是NER问题的新手,请在这里阅读。话虽如此,这篇文章的目的是描述spaCy的预训练自然语言处理(NLP)核心模型用于学习识别新实体的使用。来自spacy的现有核心NLP模型被训练来识别各种实体,如图2所示。尽管如此,用户可能希望构建自己的实体来解决问题需求。在这种情况下,预先存在的实体会使自己变得不足,因此,需要训练NLP模型来完成这项工作。原创 2023-12-26 20:09:09 · 1497 阅读 · 0 评论 -
【自然语言处理】用Python从文本中删除个人信息-第二部分
根据维基百科,NER是:命名实体识别(NER)(也称为(命名)实体识别、实体分块和实体提取)是信息提取的一个子任务,旨在定位非结构化文本中提到的命名实体,并将其分类为预定义的类别,如人名、组织、位置、医疗代码、时间表达式、数量、货币值、百分比等。因此,这一切都是关于寻找和识别文本中的实体。一个实体可以是一个单词或一系列连续的单词。实体被分类到预定义的类别中。例如,在下面的句子中,发现了三个实体:实体人“Sebastian Thrun”、实体组织“Google”和实体日期“2007”。Spacy.io。原创 2023-12-25 21:12:24 · 1568 阅读 · 0 评论 -
【隐私保护】使用Python从文本中删除个人信息:第一部分
本文为自由文本提供了一个简单但非常有效的隐私解析器。改进总是可能的,但这段代码是从文本中过滤隐私信息的最佳方法。可以通过用标记化器替换算法来进行改进。这使得引入来测量单词之间的距离成为可能,从而支持删除有打字错误的单词。完整的代码可以在Github上找到:https://github.com/lmeulen/PrivacyFilter标签和例句是荷兰语,但源代码可以很容易地被其他语言所采用。在存储库中还有一个程序,用于收集荷兰语的不同数据集。请注意,这些操作将第一行添加到具有数据名称的数据文件中。原创 2023-12-25 21:01:14 · 1052 阅读 · 0 评论 -
【隐私保护】Presidio简化了PII匿名化
当我们将PII匿名化应用于现实世界的应用程序时,可能会有不同的业务需求,这使得直接使用预训练的模型具有挑战性。例如,想象一下,挪威的一家公司联系你,希望你为他们开发一个文本匿名器。他们希望它支持英文和挪威文中的匿名PII。除了常见的PII实体外,您还需要检测遵循某些校验和规则的挪威国民身份证号码。预先训练的NER模型很好,但如果不使用额外的标记数据来微调模型以获得良好的性能,就无法轻松添加新的实体类型。因此,有一个工具可以利用预先训练的模型,并且很容易定制和扩展功能,这是很好的。原创 2023-12-24 21:29:09 · 1078 阅读 · 0 评论 -
【开源软件】最好的开源软件-2023-第10名 PyScript
WebAssembly酝酿已久的承诺之一是允许在web浏览器中使用JavaScript以外的语言。PyScript在浏览器中提供了完整的Python运行时,允许您在网页中使用Python作为一种成熟的脚本语言。甚至支持一些高级库,如NumPy,允许您使用本地HTML前端构建强大而复杂的应用程序,而不需要后端的Python服务器。请注意,PyScript目前是实验性的,而且很脆弱,通常启动时间很长。但作为对未来的一次窥视,PyScript是诱人的,它为许多可能性打开了大门。原创 2023-12-17 10:52:59 · 500 阅读 · 0 评论