NLP数据科学家不会告诉你的残酷事实

喜欢打酱油的老鸟

于 2020-03-03 10:20:48 发布

阅读量428

点赞数

原文链接：https://www.toutiao.com/i6796101089826439683/

版权

人工智能专栏收录该内容

4206 篇文章

订阅专栏

本文揭示了自然语言处理(NLP)数据科学家的真实工作状态，强调了理解文本上下文的挑战和重要性，以及该领域的复杂性和未来前景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2020-02-22 12:30:00

全文共2044字，预计学习时长6分钟

NLP数据科学家不会告诉你的残酷事实

来源：Pexels

近期，Tractica的报告显示，人工智能支持的NLP软件市场预计将从2016年的1.36亿美元增加到2025年的54亿美元。10年内增长约40倍！

另一方面，《计算语言学》杂志的赞助者，计算语言学协会（ACL）举办的年度会议吸引了许多NLP科学家提交他们的成果。与2018年相比，2019年的ACL仅提交的论文就增加了75%。

看到这里，你可能会想——哇！在不久的将来，我要努力成为一名NLP数据科学家！我爱NLP！

但这是否意味着，仅因为这一领域前途光明就该进入这一领域？

事实是，你读到的一切都表明NLP的未来是光明的，是伟大的。但是，在完全了解NLP数据科学家的工作之前，不应该进入这个领域。

本文将分享NLP数据科学家工作的真相。希望你仔细了解实际情况，以便更好地决定是否进入NLP领域。

NLP是什么？

简而言之，它涉及到分析人类自然语言和表达的计算技术。

嗯…这是什么意思呢？

这意味着需要处理不同形式的文本。以下是NLP数据科学家有时会面临的一些情况。

情况1

看看下面的推文。

NLP数据科学家不会告诉你的残酷事实

假设你正在分析这段文字。目的是理解文本。假设你确定主语是“mypants”，动词是“missing”。那么，你从这条推文中得到了什么信息？

“裤子不见了。”…？？！

这显然不能代表推文的意思，对吧？

情况2

假设你正在执行基于方面的情感分析，包括情感（积极的或消极的）和目标（意见）。

例如，“餐厅提供的服务很好”。其中，方面是“服务”，情感是“积极的”。

这为什么很重要？因为餐厅老板不仅知道顾客有好的体验，而且知道自己提供了良好的服务。

假设在数据集中看到了这段文字。

“Thisvacuum cleaner really sucks.（这个吸尘器真棒。）”

这里的对象是吸尘器，但情感是什么呢？“suck”这个词通常代表一种负面情绪，但与吸尘器搭配使用时，它的意思可能会发生变化。

吸尘器通过产生吸力来清洁。所以这里使用“suck”其实是在描述这个吸尘器很好用，不是吗？

情况3

考虑一下更复杂的情况。例如：

“嘿，哥们儿，去哪儿吃好吃的啊？”

这个句子的意思是食物很好吃吗？不，实际上这只是一个问句。

NLP数据科学家不会告诉你的残酷事实

来源：Pexels

情况4

另一种情况是处理文本时不知道它的意思。例如，你懂得英语、汉语和马来语。但公司正在进行日语文本分类项目。因此，在试图理解模型出了什么问题时，就会遇到困难。

解决方案之一是使用谷歌翻译将句子转换成你知道的语言。然而，谷歌翻译并不完美。某些情况下它所提供的翻译是没有意义的，这时就需要咨询母语是日语的人。

情况5

假设你在处理一个文本分类任务。目标是检测一个项目名称是属于葡萄酒还是果汁。

也许你会考虑使用关键字列表作为区分特征。在花了几个小时寻找一些有用的关键字来进行区分后，以下是你的想法：

首先，为每个类提供一组关键字列表。例如，葡萄酒类的关键字列表是['wine '， 'grape juice ']，而果汁类的关键字列表是['juice ']。如果在项目名称中找到了关键字列表中的元素，该元素就会作为特征输入到模型中。

然而，该模型的准确率低于基准准确率（90%）。

该怎么做呢？耐心检查每一个错误分类的测试数据。你震惊于发现葡萄酒有许多拼写错误：wne、wyne等等。因此，必须更新列表，或者对训练数据集执行某些类型的检查，以期提高准确性。

然而，这还没有结束。精确度确实提高了，但你仍然对结果不满意。再一次仔细观察错误分类的数据，会发现这个有趣的项目名称:

“发酵葡萄汁制成的黑皮诺”

从名称中提取的关键字是“juice”，因此模型将其分类为果汁。这是错误的！黑皮诺是红葡萄酒，因此应归类为葡萄酒！

NLP数据科学家不会告诉你的残酷事实

来源：Pexels

我知道你已经听过一千遍了，但这是真的——努力总有回报。如果你想成为优秀的人，必须练习，练习，再练习。如果你不喜欢什么，那就不要去做。

——雷·布拉德伯利（RayBradbury）

文本既有趣又令人厌烦。因此，绝大多数时间里，NLP数据科学家都在看着这些数据绞尽脑汁，想尽办法使模型理解上下文。

无论是在执行分析、特征工程还是模型改进，都应该用80%的时间来查看文本数据。因此，要确保能正确理解数据，并且预见将来可能发生的潜在情况。

如果你认为NLP数据科学家只是调用sklearn中的.fit()，小芯建议你考虑换个方向。

喜欢打酱油的老鸟

博客等级

码龄7年

博客专家认证

1420
原创

5918
点赞

3万+
收藏

6644
粉丝

关注

私信

热门文章

分类专栏

最新评论

为什么我觉得Python烂的要死？
yh52052sb: 哈哈哈，在网上搜python好像不用{},第一个就是你这个文章诶，菜鸟路过，听不懂思密达
CIIS 2020专题论坛丨突破自然语言理解，找到人工智能出口
m0_59260274: 中国人早已在自然语言真正理解研究上取得重大突破原创 wangda红冰金话网 2025年02月26日 15:34 福建 1人黄培红，高级工程师，中国人工智能学会会员，发表学术论文10余篇，发现自然语言加工中的what-why理解效应，解决了作为人工智能核心的自然语言理解问题，取得世界级研究成果，应邀先后在ICIS2017与IWACIII2017国际会议上做学术报告及交流讨论。黄培红从事计算机工程技术工作30多年，曾研发并投产成功某银行第一个中间业务软件。他早年毕业于北京航空航天大学计算机科学与工程系，发表论文《自然语言理解的机器认知形式系统》，在什么是理解以及什么是自然语言理解方面研究取得原创性研究成果，解决了人工智能方面的世界性难题。其研究论文通过多模态关联解决自然语言理解问题，在世界范围引起互联网公司及学术界广泛关注，特别是近年来多模态语义理解已经成为人工智能的研究热点。目前chatgpt deepseek等等语言大模型都在往这个研究上靠，请周知。
SAP 金属行业实施项目的GAP之Metall Balance
georgefan2008: 截图为啥如此模糊呢，能分享一下报表的具体的设计思路吗，谢谢！
SAP QM 事务代码QA02取消以及反取消检验批
Jing--TuTu: 老师您好，发货单已经删掉，检验批的【取消批】按钮变成灰色，还有其他办法取消检验批吗
SAP QM 检验批录入了结果以后不能再Reset检验计划了？
AI格桑花: 后来是怎么解决了呢？录入检验结果后，清除后，检验批状态还是不能为REL

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。