NLP简报（Issue#1）

最新推荐文章于 2022-04-26 10:22:51 发布

kaiyuan_sjtu

最新推荐文章于 2022-04-26 10:22:51 发布

阅读量1.9k

点赞数

分类专栏： NLP Deep Learning 文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/Kaiyuan_sjtu/article/details/104364316

版权

NLP 同时被 2 个专栏收录

64 篇文章 49 订阅

订阅专栏

Deep Learning

48 篇文章 18 订阅

订阅专栏

欢迎来到船新栏目NLP简报，本新闻简报的目的是让你不必花费太多时间就可以了解与NLP和ML有关的一些有趣和最新的故事。

1、Publications 📙

1.1 用于乳腺癌筛查的AI系统

DeepMind在Nature杂志上发表了一篇名为“International evaluation of an AI system for breast cancer screening”的新论文。作者说，这项工作是关于在乳腺癌筛查方面超越人类专家的AI系统的评估。当前的AI系统是否真的可以实现这一点尚有争议，并且对于这种类型的系统及其评估方式一直存在批评。

1.2 信息抽取

Pankaj Gupta公开发布了他的博士学位论文，题目为“Neural Information Extraction From Natural Language Text”。主要讨论如何使用基于神经的方法有效地从自然语言文本中提取语义关系，此类研究工作旨在促进构建结构化的知识库，该知识库可用于一系列下游NLP应用程序，例如Web搜索，问题解答以及其他任务。

1.3 Improved recommendations

MIT和IBM的研究人员基于三种广泛使用的文本分析工具（主题建模，单词嵌入和最佳传输）的组合，开发了一种用于分类，显示和搜索相关文档的方法（于去年在NeurIPS上发布）。该方法还为文档排序提供了有希望的结果。此类方法适用于需要对大规模数据（例如搜索和推荐系统）进行改进和更快建议的各种场景和应用。

2、Creativity and Society 🎨

2.1 AI就业

Stanford 2019年AI指数报告表明，对AI从业者的需求更多。但是，与AI相关的工作有很多方面，例如职业转变和面试仍然没有适当定义。

在博客"Shifting Careers to Autonomous Vehicles"中，Vladimir Iglovivok详细介绍了他的职业生涯和ML冒险，从构建传统的推荐系统到构建壮观的计算机视觉模型（赢得了Kaggle竞赛）。他现在在Lyft从事自动驾驶汽车的工作，但是到达那里的旅程并不容易。

如果n 真的对AI事业感兴趣并且很认真，Andrew Ng的公司deeplearning.ai成立了Workera，该公司专门致力于帮助数据科学家和机器学习工程师从事AI事业。可以在此处获取关于Workra的官方报告。

3、Tools and Datasets ⚙️

3.1 一个极速分词器

Hugging Face是一家的NLP初创公司，拥有开源的Tokenizers，这是一种可在现代NLP pipeline中使用的超快速的分词器，可以查看Tokenizers GitHub库以获取有关如何使用Tokenizer的文档。
在这里插入图片描述
TensorFlow 2.1合并了一个新的TextVectorization层，你可以轻松处理原始字符串并有效地执行文本normalization，tokenization，n-gram生成和词汇索引。点击查看Chollet的Colab笔记本，演示如何使用该功能进行端到端文本分类。

3.2 用于搜索的ML&NLP

去年，NLP取得了巨大进步，其中一个领域是一系列改进和新的研究方向。搜索可能是可能从迁移学习NLP中受益的那些领域之一。

尽管搜索属于信息检索领域，但仍有机会构建使用现代NLP技术（例如来自基于BERT的基于变压器的模型的上下文表示）来改进语义搜索的搜索引擎。 Google在几个月前发布了一篇博客文章，讨论了他们如何利用BERT模型来改善和理解搜索。

如果您对如何将上下文化表示形式应用于使用Elasticsearch和TensorFlow等开放式搜索技术的搜索感到好奇，则可以查看"Elasticsearch meets BERT"或"Building a Search Engine with BERT and TensorFlow"。

3.3 医学图像分析

TorchIO是基于流行的深度学习库PyTorch的Python软件包。 TorchIO提供的功能可轻松高效地读取和采样3D医学图像。功能包括用于数据扩充和预处理的空间变换。
undefined

4、Ethics in AI 🚨

4.1 ML社区的欺诈行为

Kaggle比赛的第一名优胜者因欺诈活动而被取消参赛资格，其队伍使用了聪明但不负责任和不可接受的策略来赢得比赛的第一名。原文"PetFinder.my Contest: 1st Place Winner Disqualified"重点介绍了机器学习社区想要缓解的许多严重且无法接受的行为，正确和道德地使用机器学习技术是前进的唯一方法。

4.2 机器翻译中的性别偏见

关于机器翻译系统是否反映性别偏见的主题，一组研究人员发表了这篇出色的论文，“Assessing Gender Bias in Machine Translation – A Case Study with Google Translate”，提出了使用Google翻译的案例研究。作者声称的一项发现是，Google翻译“表现出强烈的男性违约倾向，特别是在与性别分布失衡有关的领域，例如STEM工作。”

4.3 ML偏差与公正性

如果您想让所有人都了解AI伦理和公平，那么这是一个由Timnit Gebru主持，由TWIML主持的不错的播客。

Timnit是ML公平性方面的杰出研究者，他与Eun Seo Jo一起发表了一篇论文，"Lessons from Archives: Strategies for Collecting Sociocultural Data in Machine Learning"他们确定了档案中文档收集实践的五种关键方法，这些方法可以为社会文化ML中的数据收集提供更可靠的方法。这可能会导致跨学科合作研究获得更系统的数据收集方法。

Sina Fazelpour和Zachary Lipton最近发表了一篇论文，“fairness-non-ideal-fazelpour-lipton-2020”，他们认为，由于我们非理想世界的产生方式的性质，基于理想思维的公平ML可能会导致误导政策和干预措施。实际上，他们的分析表明“提出的公平ML算法的缺点反映了理想方法所面临的广泛问题。”

5、Articles and Blog posts ✍️

5.1 NLP shortfalls

Benjamin Heinzerling在The Gradient中发表了一篇有趣的文章，讨论了NLP不足的领域，例如论点理解和常识推理。本杰明参考了Nivin＆Kao的最新论文，“Probing Neural Network Comprehension of Natural Language Arguments”，该论文挑战和质疑了转移学习和语言模型对高级自然语言理解的能力。

5.2 NLP和ML2019年亮点

对于新的一年，报告"NLP Year in Review — 2019"，记录了2019年的一些最有趣的NLP和ML亮点。

塞巴斯蒂安·鲁德（Sebastian Ruder）最近还写了一篇精彩而详尽的博客文章，介绍了十大关于ML和NLP的研究方向，他认为这很有影响力在2019年。列表中包括诸如通用无监督预训练，应用于科学的ML和NLP，增强预训练模型，高效和远程Transformers等主题。

Google AI研究会发布他们一年来进行的研究的摘要以及他们正在关注的未来研究方向，“Google Research: Looking Back at 2019, and Forward to 2020 and Beyond”。

6、Education 🎓

6.1 Democratizing AI education

为了使AI教育民主化并向大众普及AI技术的影响，赫尔辛基大学与Reaktor合作发布了涵盖AI基础知识的精彩免费课程。受欢迎的课程称为“Elements of AI”，包括诸如AI伦理学，AI哲学，神经网络，朴素贝叶斯规则等主题，以及其他基础主题。

Stanford CS224N再次推出了流行的“Natural Language Processing with Deep Learning”课程。该课程于今年1月7日正式开始，因此，如果您想学习该课程，请访问其网站以获取完整的课程提纲，幻灯片，视频，阅读建议等。

6.2 Top NLP and ML Books

关于一些NLP和ML领域书籍推荐。

6.3 使用核方法的机器学习

诸如PCA和K-means之类的核方法已经存在了很长一段时间，这是因为它们已成功应用于各种应用，例如图形和生物序列。查看这套涵盖了各种Kernel Methods及其内部工作原理的综合幻灯片。这也是一个由Francis Bach维护很棒的博客，“Are all kernels cursed?”，讨论了内核方法和其他机器学习主题。