关闭

【机器学习PAI实践五】机器学习眼中的《人民的名义》

2937人阅读 评论(1) 收藏 举报
分类:

一、背景


最近热播的反腐神剧“人民的名义”掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用。笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入。

本文使用阿里云机器学习PAI,主要针对以下几个方面进行了实验:

  • 分词以及词频统计
  • 每一章的关键词提取
  • 每一章的文本摘要
  • 每一章文本之间的相似度分析

实验流程以及数据可以在阿里云机器学习PAI的社区直接使用,只要点击“去PAI平台创建”按钮即可在自己的项目下生成实验。社区部分截图:

二、数据集介绍

数据源:本文数据为人民的名义部分剧集文本,一共分成1-9个章节。
具体字段如下:

字段名 含义 类型 描述
id 文章唯一标识 string 文章标识
content 文章内容 string 部分剧集内容

数据截图:

三、数据探索流程

首先,实验流程图:

1.分词以及停用词

分词是文本分析的基础,但是在“人民的名义”这样的文本中会有很多特有名词,是分词算法很难区分的。比如“侯亮平”、“沙瑞金”、“大风厂”等,所以我们需要在split word组件中加入一个词库,帮助分词组件可以对人名做正确的分词处理。加入的词库fufeitest.splite_w如下图:

另外,文本中一些“的”、“地”、“得”这样的助词以及各种标点符号也需要去掉,这些词是没有意义的,对文本分析有干扰,这些词可以通过“停用词过滤”组件去除。最终通过分词以及停用词过滤组件操作之后,文本内容被整理成了如下图形态:

2.关键词提取及词频统计

通过“词频统计”组件可以查看每一章中各个词语出现的频率,如图所示,id为1的文章中每个词语出现的次数:

“关键词”提取组件可以返回每个文章中关键的词语以及权重,(如果我们在停用词过滤那里处理的更细致,这部分效果会更好),通过这个结果可以看到每一章的关键人物有哪些,以及他们的权重排名:

3.文本摘要

“文本摘要”组件可以帮助您快速的浏览每一章节的关键内容,返回的是全文最关键的句子,我这里设置的是返回前三关键的句子:

截取的是第9章的摘要内容,如果看过这个剧,通过这个摘要可以大致了解到这是在讲汉东省委关于干部任用的会议的那一集。

4.相似文章分析

通过“Doc2Vec”组件可以将文本文章映射成高维向量化,将文本按照语义变成数学向量,结果如下:

然后可以通过”语义向量距离”组件挖掘出不同文章向量的距离,这里面的隐含关系是文章向量距离越近,那么语义越相近。我们以第9章为例:

第9章与第8章的向量距离最小,言外之意就是这两章的语义相近,这一点也比较容易理解,因为相连的两章在意义上肯定上是有一定的关联性。

四、总结

本文通过对“人民的名义”部分章节文本的分析,帮助大家了解机器学习PAI上面的部分文本算法的用法。如果向更深入的了解相关的内容,欢迎到PAI的社区来讨论,我们会定时组织活动。

社区:PAI社区公众号

产品页:阿里云数加机器学习平台

3
0
查看评论

阿里云机器学习PAI-快速上手指南

阿里云机器学习PAI-快速上手指南 What is 机器学习 机器学习指的是机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。目前机器学习主要在以下一些方面发挥作用: 营销类场景:商品推荐、用户群体画像、广告精准投放 金融类场景:贷款发放预测...
  • forest_world
  • forest_world
  • 2017-05-08 14:41
  • 3452

阿里云机器学习平台——PAI平台

在云栖TechDay第十五期活动上,阿里云iDST资深技术专家褚崴给大家带来了《阿里云机器学习平台》的分享,他以机器学习的概念入手展开了此次分享,演讲中他重点介绍了阿里云机器学习平台的基础架构和产品特点,并结合阿里内部的芝麻信用分、推荐系统等场景讲解了PAI平台的具体应用方案。 下文根据褚崴的演讲内...
  • bengsa2291
  • bengsa2291
  • 2017-03-15 09:42
  • 1023

机器学习系列(6)_从白富美相亲看特征预处理与选择(下)

本文讲了一下特征预处理的完整流程,接下来用贝叶斯方法筛选特征,并进行判断。最后探讨了一下数据与算法的关系和机器学习的局限性。
  • longxinchen_ml
  • longxinchen_ml
  • 2016-01-10 21:19
  • 24107

【机器学习PAI实践一】搭建心脏病预测案例

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2一、背景心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体侧...
  • gshengod
  • gshengod
  • 2016-12-13 15:06
  • 3067

为什么要写《机器学习实践应用》这本书

预售地址: https://item.jd.com/12114501.html历经了10个月,《机器学习实践应用》这本书终于面世了。首先呢,因为我的工作比较忙,只能抽一些周末或者是下班以后的时间进行写作,另外书的发布流程是一个漫长的过程。所以当这本书出版的时候,我感到熟悉又陌生,熟悉是因为书中的内...
  • gshengod
  • gshengod
  • 2017-07-03 08:59
  • 3590

【机器学习PAI实践五】机器学习眼中的《人民的名义》

一、背景 最近热播的反腐神剧“人民的名义”掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用。笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入。本文使用阿里云机器学...
  • gshengod
  • gshengod
  • 2017-05-04 10:25
  • 2937

机器学习PAI教你如何品酒

如何上传数据、如何做数据预处理、如何分类、如何评估四个部分,全程在线实操,并产出结果 数据导入:数据样本 IDE    大规模稀疏矩   PLDA  10折交 多分类文本分类   lstm   (看数据类) 深度...
  • as472780551
  • as472780551
  • 2017-08-12 14:36
  • 145

人民的名义泄漏版百度云46-56集百度网盘下载

《人民的名义》是由李路执导、周梅森编剧的当代检察反腐题材电视剧,由陆毅、张丰毅、吴刚、许亚军、张志坚、柯蓝、胡静、张凯丽、赵子琪、白志迪、李建义、高亚麟、丁海峰、冯雷、李光复、张晞临、徐光宇联袂主演,侯勇、沈晓海、侯天来、周浩东、刘伟等特别出演。  该剧以检察官侯亮平的调查行动为叙事主线...
  • snm66
  • snm66
  • 2017-04-25 16:14
  • 670

《人民的名义》第二部剧情简介

《人民的名义》第二部剧情简介 由此剧情,我们可以看出:北大官混混儿当官不作为是一种政治腐败,权力腐败更为可怕。 故事发生在第一部结束五年之后。此时汉东省委书记沙瑞金(张丰毅 饰)已经成为政治局委员,侯亮平(陆毅 饰)则被提拔为副省长兼任公安厅长。沙瑞金的夫人、原本在北京开律师事务所的...
  • yuanmeng001
  • yuanmeng001
  • 2017-05-05 09:58
  • 2792

Linux驱动修炼之道-终端驱动框架分析

  • woshixingaaa
  • woshixingaaa
  • 2011-06-30 11:27
  • 72
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    机器学习微信交流群
    为了方便大家学习与交流,凡人云近日已开通机器学习社群! 分享“凡人机器学习”公众号名片到40人以上的大群并截图给小助手,小助手就会拉你入群 在这里你可以得到: 1.各种学术讨论 2.最新的资料分享 3.不定期的征文以及联谊活动! 小助手微信号:meiwznn
    作者新书《机器学习实践应用》

    主要讲述算法和业务的结合,适合初学者

    机器学习实践应用

    京东地址

    个人资料
    • 访问:842143次
    • 积分:11247
    • 等级:
    • 排名:第1683名
    • 原创:236篇
    • 转载:40篇
    • 译文:0篇
    • 评论:460条
    博客专栏
    统计