互联网信息摘要 - 北大计算机研究所.pdf
《互联网数据挖掘》本科生课程
互联网信息摘要
万小军
北京大学语言计算与互联网挖掘组
/lcwm
2016年11月8日
信息摘要概述
2
信息摘要的重要性
我们进入一个信息爆炸的时代
据IDC统计,互联网数据量已跃至ZB
级别(1ZB=240GB ),预计2020年
达到35ZB
搜索引擎不能有效解决信息过载
的问题
相关信息过多:冗余、片面、杂质
移动设备的普及使用
屏幕小、网络带宽低等特点需要新的
3
信息浏览与阅读方式
4
5
6
信息摘要任务定义
对海量数据内容进行提炼与总结 ,以简洁、
直观的摘要来概括用户所关注的主要内容,
方便用户快速了解与浏览海量内容。
数据
摘要机
50%
10% 100% 输出
输入
摘要
7
信息摘要的范畴
关系数据库
图像 音频
文本
数据
视频
摘要机
50%
10% 100% 输出
输入
摘要
8
信息摘要例子
文献主题词
新闻标题
论文摘要
图书摘要
评论精选
电视剧、电影预告片
音乐节选/选听
等等
9
文本信息摘要
我们侧重讲解文本信息摘要
处理的数据类型为文本
新闻文本
社交媒体文本
关键词抽取可看做是文档摘要的一个特例
10
文本信息摘要应用
文献自动标引
新闻信息服务
信息检索
…
11