人机交互系统（1，mybatis面试题及答案高级

最新推荐文章于 2024-07-21 05:49:39 发布

jixuczy

最新推荐文章于 2024-07-21 05:49:39 发布

阅读量821

点赞数 23

分类专栏： Java程序员文章标签：人机交互

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jixuczy/article/details/136812392

版权

我们的任务是检测哪些tweet是关于灾难性事件的，而不是与之相关的主题，比如电影。为什么?一种潜在的应用可能是，在不理会对Adam Sandler最新电影的评论的情况下，只向执法官员通报紧急情况。这项任务的一个特殊挑战是，这两个类都包含用于查找tweet的相同搜索词，因此我们将不得不使用更细微的差异来区分它们。

在本文的其余部分，我们将把关于灾难的tweet称为“灾难”，而关于其他任何事情的tweet称为“无关”。

1.2 标签

我们已经标记了数据，所以我们知道哪些tweet属于哪些类别。正如Richard Socher在下面所概述的，找到和标记足够的数据来训练模型通常更快、更简单、更便宜，而不是试图优化一个复杂的无监督方法。

在这里插入图片描述

二、数据清洗

我们遵循的第一条规则是：“你的模型永远只会和你的数据一样好。”

数据科学家的关键技能之一是知道下一步应该是处理模型还是数据。一个好的经验法则是先查看数据，然后整理它。一个干净的数据集将允许模型学习有意义的特征，而不会在不相关的噪声上过拟合。

这里有一个清单，可以用来清理你的数据：

删除所有不相关的字符，例如任何非字母数字字符 Tokenize通过将文本分隔成单个单词来实现文本的标记
删除不相关的单词，比如twitter上提到的“@”或url
将所有字符转换为小写，以便对“hello”、“hello”和“hello”等单词一视同仁
考虑将拼写错误或交替拼写的单词组合成一个表示(例如“cool”/“kewl”/“cooool”)
考虑词型还原(将“am”、“are”和“is”等单词简化为“be”等常见形式)

在遵循这些步骤并检查其他错误之后，我们可以开始使用干净的、有标记的数据来训练模型！

三、找一个好的数据表示

机器学习模型以数值作为输入。例如，处理图像的模型采用矩阵表示每个颜色通道中的每个像素的强度。

最低0.47元/天解锁文章

关注

23
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
人机交互系统（1，mybatis面试题及答案高级

本文从基础到高级再到实战，由浅入深，把MySQL讲的清清楚楚，明明白白，这应该是我目前为止看到过最好的有关MySQL的学习笔记了，我相信如果你把这份笔记认真看完后，无论是工作中碰到的问题还是被面试官问到的问题都能迎刃而解！本文从基础到高级再到实战，由浅入深，把MySQL讲的清清楚楚，明明白白，这应该是我目前为止看到过最好的有关MySQL的学习笔记了，我相信如果你把这份笔记认真看完后，无论是工作中碰到的问题还是被面试官问到的问题都能迎刃而解！
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。