假新闻识别,从0到95% - 机器学习实战

我们使用机器学习和自然语言处理开发了一个假新闻检测器,其在验证集上的准确率超过了95%。 在现实世界中,准确率应该会比95%低一些,特别是随着时间的推移,假新闻的创作方式也会有所改变。

由于自然语言处理和机器学习方面发展迅猛,因此我想也许可以搞一个能够识别假新闻的模型,从而遏制假新闻泛滥所造成的灾难性后果 。

可以说,要制作自己的机器学习模型,最困难的部分就是收集训练数据。 我花了几天和几天的时间来收集2017/2018赛季所有NBA球员的照片, 以期训练一个人脸识别模型 。 我不知道我会潜入一个长达数月之久的痛苦过程,暴露出一些真正黑暗而令人不安的事情,这些事情仍然作为新闻和真实的信息被传播。

如果你希望马上学习机器学习方面的技能和知识,我推荐你使用汇智网的Python机器学习在线运行环境

假新闻的定义

我的第一个障碍是意外的。 在对假新闻做了一些研究之后,我很快发现错误信息有很多不同的类别。 有些文章是公然虚构的,有些文章则提供了真实的事件但进行错误的解读,有些文章属于伪科学,有些宣扬片面观点的文章也伪装成新闻,文章是讽刺的,有些文章主要内容就是一些推特和引用其他人的话。 我搜索了一下,发现一些人试图将网站分为“讽刺”,“虚假”,“误导”等类别。

我认为这是一个很好的开始,因此继续前进,并开始访问这些被标记的网站,试图寻找一些例子。 几乎是马上,我发现了一个问题: 一些被标记为“虚假”或“误导”的网站有时也会有真实的文章。 所以我知道如果不做一个完整的检查就没有办法去刮。

于是我开始问自己,我的模型是否应该考虑到讽刺和意见,如果是的话,他们应该被认为是虚假的、真实的还是属于自己的类别?

情绪分析

在假新闻网站上泡了大约一周后,我开始怀疑自己是否把问题过度复杂化了。 也许我只需要使用现成的机器学习模型来进行情感分析,看看是否存在一种模式? 我决定构建一个快速的小工具,使用网络爬虫来抓取文章标题、描述、作者和内容,并将抓取结果输入到情感分析模型。 我使用了Textbox ,这个在线服务很方便,并且很快就可以返回结果。

Textbox会返回一个你可以解释为正向或负向的情绪分数。 然后,我搞了一个粗糙的小算法来为不同类型的文本(标题、内容、作者等等)的情绪添加权重,并将它们加在一起,看看能不能得到一个有意义的全局得分。

一开始它表现的很好,但当我试过第七或第八篇文章之后,这个小算法开始胡言乱语了:它的表现离我想要建立的假新闻检测系统还差的很远。

失败。

自然语言处理

这部分就是我的朋友大卫·埃尔南德斯 ( David Hernandez)所建议的:利用真实的文本训练出一个模型。 为了做到这一点,我们需要为不同的类别中提供大量样本实例。

为了试图理解假新闻的模式所投入的精力,让我已经相当疲惫了,所以我们决定只抓取那些已知属于虚假、真实或讽刺等分类的网站,看看我们能否快速构建一个数据集。

在运行了几天的粗糙的抓取工作之后,我们得到了一个自认为足够大的数据集来训练一个模型。

结果是废话。 深入查看训练数据后,我们意识到,这些网站从未像我们想的那样,整齐地落入预先规划的小类别。 其中一些网站把假新闻和真实的新闻混在一起,另一些网站则只有一些来自其他网站的博客文章,有些网站的文章中90%的文字都是特朗普的推文。 所以我们意识到必须重新开始训练数据。

这是事情变糟的时候。

这是一个星期六,我开始了漫长的过程,阅读每篇文章然后才决定将其归入什么类别,并且笨拙地将文本复制、粘贴到电子表格中。 其中有一些黑暗的、令人恶心的、种族主义的、真正堕落的东西,开始时我试图忽略它们。 但经过数百篇这样的文章之后,它们开始接近我。 当我的视觉模糊,我对颜色的解读变得混乱起来的时候,我开始变得非常沮丧。 人类文明为何降到如此低的水平? 为什么人们不能批判性地思考? 我们真的有希望吗? 这个过程持续了几天,因为我努力为这个模型准备足够多的数据样本。

我发现自己在对假新闻的解读中浮现出来,当看到那些我有不同意见的文章时,就会生气,只为选出我认为是正确的文章而继续奋斗。 但是,什么是对,什么是错?

不过最终,我收集到了足够多的样本,然后非常放心地把它们发给大卫。

第二天,当我急切地等待结果时,他再次进行了训练。

我们达到了约70%的准确率。 起初我觉得这已经很好了,但是当使用开放选择的文章进行抽查后,我意识到这个模型一无是处。

失败。

Fakebox

回到绘图板。 我做错了什么? 是David指出来,简化问题可能是提高准确率的关键。 因此我的确思考了,到底什么才是我要解决的问题。 然后突然一激灵,也许不需要检测假新闻,只要检测真实的新闻就够了。 真实的新闻更容易分类,客观真实,几乎不需要解读。 而且还有很多可信的消息来源。

于是我回到互联网,开始重新收集训练数据。 我决定把所有新闻都归为两类: 真实的和不真实的。 不真实类将包括挖苦、片面观点、假新闻,以及其它没有遵守AP标准的内容。

我花了数周的时间来做这件事,每天都要花几个小时从The Onion到Reuters的各种网站上获得最新的内容。 我把成千上万的真实和非真实内容的样本放到一个巨大的电子表格中,每天我都会增加数百个。 最终,我认为样本已经足够来再次尝试。 于是我给David发了电子表格,然后就是焦急地等着结果。

当我看到准确度在95%以上时,我几乎跳了起来。 这意味着我们发现了一个模式,可以用来区分真实的新闻和那些你应当谨慎对待的新闻。

成功(某种程度)!

如果你喜欢这篇文章,请关注我的头条号:新缸中之脑!

原文: I trained fake news detection AI with >95% accuracy, and almost went crazy

  • 6
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 对不起,作为人工智能,我没有直接识别图像的能力。我可以提供有关鉴定真假艺术品的信息,但无法直接确定一幅画的真假。一般来说,鉴定真假艺术品需要专业的知识和经验,通常需要经过多方面的检验和鉴定,才能确定一件艺术品的真假。 ### 回答2: 是的,我能够辨别一幅画的真假。辨别一幅画的真假需要综合多种因素。首先,我会观察画作的细节和技法,包括线条的流畅度、色彩的层次和透视效果等。真正的艺术家通常能够运用独特的技巧创作出细腻的作品,而伪造品则可能显得粗糙或过于完美。其次,我会比较画作与艺术家其他作品之间的风格和特点。每位艺术家都有自己独特的创作方式和风格,这是他们的艺术语言,因此可以通过对比来判断画作是否与艺术家的其他作品相符。此外,我还会了解画作的历史背景和来历,通过研究画作的作者、创作时间和来源等相关资料来判断其真伪。相对而言,真迹的历史背景更为清晰,有着可靠的来源和记录,而伪作则可能缺乏真实的历史痕迹。最后,我会借助专业工具和技术,如红外线照射、显微镜观察等,来检测画作的材料和构图的真实性。这些科学手段可以帮助发现伪造作品中的瑕疵和特殊痕迹。总的来说,辨别一幅画的真假需要综合运用艺术鉴赏、历史研究和科学检测等方法,因此我相信自己有能力辨别一幅画作的真伪。 ### 回答3: 是的,我能够辨别一幅画的真假。要辨别一幅画的真假,需要借助一些技巧和知识。 首先,我会观察画作的细节。真正的艺术品通常更加精细,细节处理更加独特和出色。我会仔细观察画面的构图、色彩运用、线条的流畅性等方面,若存在笔触不够流畅、细节处理不够精细等问题,可能就是假作。 其次,我会研究作者的风格和作品。每位艺术家都有自己独特的风格和创作特点,我会了解作者的历史背景、画风倾向等,与所研究的画作进行对比。如果画作与该艺术家的作品风格明显不符,那可能就是假作。 另外,我还会借助科技手段来辅助辨别。比如通过红外线摄影、紫外灯检查、X射线扫描等技术来观察画作的构造和材料。这些现代技术可以揭示隐藏的绘画信息辨别真伪。 然而,要完全确定一幅画的真假,可能需要综合以上方法,并请专业鉴定机构或专家进行评估。他们有丰富的经验和专业知识,能够辨别真伪,并给出专业的鉴定意见。 总的来说,辨别一幅画的真假需要综合考虑多个因素,包括画作本身的细节、作者的风格以及科技手段的辅助。只有综合运用这些方法,才能更准确地辨别一幅画的真伪

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值