人机交互系统(1,mybatis面试题及答案高级

我们的任务是检测哪些tweet是关于灾难性事件的,而不是与之相关的主题,比如电影。为什么?一种潜在的应用可能是,在不理会对Adam Sandler最新电影的评论的情况下,只向执法官员通报紧急情况。这项任务的一个特殊挑战是,这两个类都包含用于查找tweet的相同搜索词,因此我们将不得不使用更细微的差异来区分它们。

在本文的其余部分,我们将把关于灾难的tweet称为“灾难”,而关于其他任何事情的tweet称为“无关”。

1.2 标签

我们已经标记了数据,所以我们知道哪些tweet属于哪些类别。正如Richard Socher在下面所概述的,找到和标记足够的数据来训练模型通常更快、更简单、更便宜,而不是试图优化一个复杂的无监督方法。

在这里插入图片描述

二、数据清洗


我们遵循的第一条规则是:“你的模型永远只会和你的数据一样好。”

数据科学家的关键技能之一是知道下一步应该是处理模型还是数据。一个好的经验法则是先查看数据,然后整理它。一个干净的数据集将允许模型学习有意义的特征,而不会在不相关的噪声上过拟合。

这里有一个清单,可以用来清理你的数据:

  1. 删除所有不相关的字符,例如任何非字母数字字符 Tokenize通过将文本分隔成单个单词来实现文本的标记

  2. 删除不相关的单词,比如twitter上提到的“@”或url

  3. 将所有字符转换为小写,以便对“hello”、“hello”和“hello”等单词一视同仁

  4. 考虑将拼写错误或交替拼写的单词组合成一个表示(例如“cool”/“kewl”/“cooool”)

  5. 考虑词型还原(将“am”、“are”和“is”等单词简化为“be”等常见形式)

在遵循这些步骤并检查其他错误之后,我们可以开始使用干净的、有标记的数据来训练模型!

三、找一个好的数据表示


机器学习模型以数值作为输入。例如,处理图像的模型采用矩阵表示每个颜色通道中的每个像素的强度。

  • 23
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值