大数据时代：数字内容价值再发现

最新推荐文章于 2024-09-21 17:07:20 发布

cigang4063

最新推荐文章于 2024-09-21 17:07:20 发布

阅读量309

点赞数

文章标签：大数据人工智能 python

原文链接：https://my.oschina.net/u/1160813/blog/180219

版权

　　无论是国内还是国外，很多媒体都处于业绩下滑趋势，甚至不少媒体正在倒闭、重组。尽管已经全面向移动互联网进军，但受困于生存模式壁垒，媒体转型创新成功者并不多见。

　　历经十几年的发展，网络门户也成为传统媒体的一部分。近期国内几大门户争相改版，他们希望新的门户完全基于满足和贴近用户不断涌现的个性化、社交化、本地化和移动化等需求。

　　对于传统媒体来说，进化已成为毋庸置疑的必然态势，在大数据时代，也许更有必要去认真梳理数字内容的价值链。

　　移动互联网重构内容

　　数字阅读领域正面临极大改变，其根本原因是移动互联网重构了内容形态（碎片化生存）、重构了内容消费时间（黄金时间、垃圾时间再定义）、重构了社会组织形态（社交化），信息在关系链流动中又重构了信息本身（内容再生产）。但是，内容生产者和内容传播平台还远远没有根据现实满足用户需求、服务用户体验。

　　大数据时代的来临，最明显的特征无疑是内容生产数量的几何级倍增。

　　【全球每秒钟发送2.9百万封电子邮件，一分钟读一篇的话，足够一个人昼夜不息地读5.5年……

　　每天会有2.88万个小时的视频上传到YouTube，足够一个人昼夜不息地观看3.3年……

　　推特上每天发布5000万条消息，假设10秒钟浏览一条消息，这些消息足够一个人昼夜不息地浏览16年……

　　每天亚马逊上将产生6.3百万笔订单……

　　每个月网民在脸书上要花费7000亿分钟，被移动互联网使用者发送和接收的数据高达1.3EB……

　　谷歌上每天需要处理24PB的数据……】

　　之前，用户会在电脑上同时打开多个窗口，处理多件事情。听歌，看视频，聊天，遇到好奇的东西用搜索引擎查询，时不时刷新邮箱、微博或者社交网站查看新消息，甚至有人同时还在更新空间、博客。现在，他们更多了一个带在手边的设备，手机或者平板电脑，不仅要刷微博，还要看微信，或者玩游戏，关注谁发来了信息，或者哪个应用又弹出来新的资讯……

　　在媒介的发展过程中，这种进化的过程已经得到验证。很多电视新闻节目、传统报刊为了增加受众黏度而大量减少硬新闻的比例，将名人趣事、日常生活百态、与百姓生活密切相关的信息内容、带刺激性的犯罪新闻和暴力新闻、灾害事件、体育新闻、文化新闻、娱乐新闻等软性内容作为新闻的重点。

　　这既是一个最好的时代，信息和媒介无所不在，也是一个糟糕的时代，我们被信息包围，每个人成为完美的多任务处理机器人，信息过载，有价值的内容和冗余的信息裹挟而来，我们逐渐被碎片化的生活所笼罩。摆在数字内容平台和产品面前的，要么娱乐至死，制造热点，炒作热点，要么变得更碎片化，在人们短暂的注意力停留中创新内容和展现形式。

　　大数据价值在于过滤

　　大数据时代，基于数字内容所拓展的平台和产品同纸质媒体、传统门户一样，既要摆脱单一的流量经营和复本经济模式，同时也要有一种新的运营机制来防范海量数据带来的噪音、提升个性化内容的比例，增强用户获取信息的便利性，更要将基于内容所产生的用户行为、用户数据、用户特征等转化为数据资产（用户群体、性别、年龄、教育程度、收入区间、生活范围、阅读偏好、品牌关注度、情绪等），从而创造一种新的产品范式。

　　传统媒体通过产品价格和品牌定位进行用户价值的单项过滤，而大数据时代的新兴公司则可以通过用户本身的社群关系、兴趣偏好、情绪脉动等数据挖掘能力过滤用户价值，并通过用户行为数据来判断目标用户是否精准、内容商应该生产什么内容、洞悉用户的消费趋势，甚至让用户来为自己的商业利益代言等。

　　借助大数据相关的技术，不同经营方向的互联网企业也可以实现跨界整合，充分拓展数字内容消费的积极性，扩大企业的经营深度。

　　改写数字内容经营范式

　　数字内容不仅仅是媒介信息的数字化，一张图片、一篇文章、一首歌、一部电影都可能是人们情绪、情感、思想的表达，当智能终端和移动互联网完成个体与虚拟世界的实时连接，信息流便不仅仅承载着信息本身，还有人们的社交关系链、情绪化数据，基于大数据技术所形成的数据挖掘、语义分析等技术将促进数字内容消费进一步大发展，促进数字内容媒介与新兴科技的跨界融合。

　　云计算、移动互联网和可穿戴设备的结合，迎来了一个可感知、反馈、分析和预测的量化自我的“大数据时代的来临”。

　　谷歌眼镜版《纽约时报》应用可以按照固定的时间间隔将新闻和头条消息推送至眼镜显示屏，用户只需快速倾斜头部，就可以在新闻图片和全文中实现浏览和切换。一旦安装成功，谷歌眼镜就会时不时出现在用户耳边朗读新闻头条，该应用还可以朗读新闻的简要介绍。总的来说，这款应用简单易用，足以帮助用户每天获得足够的新闻。其他公司也已经计划推出适用于谷歌眼镜的应用，例如基于大数据进行的知识管理产品Evernote和推特等。

　　《纽约时报》借助的可穿戴设备不仅仅是眼镜，还有LeapMotion体感控制器，通过手势查看新闻：这款工具读者可以移动双手浏览新闻，通过一个圆形的移动，用户可以滚动文章，摇摇手，就可以回到主菜单。另外，应用中的标题、图片、新闻摘要等内容，将以卡片的方式呈现。

　　从数字内容个性化的聚合、筛选、挖掘乃至于推送；从用户参与内容生产、传播到用户评价背书成为一种新的赢利工具；从内容的跨界整合到精细化内容与用户的无缝对接；从传统的听说读写到借助可穿戴设备让阅读模式实现自我量化的反馈经济模式形成，这一切都围绕着大数据的思维和技术手段的运用，数字内容新的经营范式也在不断被改写和再造，如果能深入理解大数据，毫无疑问，就能在内容消费创新中找到一套独特而有潜力的价值发现和整合路径。

汉语分词系统NLPIR(前身ICTCLAS)从2000年诞生以来，历时14年，全球用户突破30万，先后获得了2010年钱伟长中文信息处理科学技术奖一等奖，2003年国际SIGHAN分词大赛综合第一名，2002年国内973评测综合第一名，已经成为中文信息处理领域标杆性的工作。ICTCLAS创始人张华平博士倾力打造，即将推出的NLPIR2014版，是迄今为止最大的一次更新，在汉语分词体系架构下增加了对英文词法分析的支持，可以自动识别英文词汇的原型、词性标注、命名实体与关键词；并在当前汉语词法分析的基础上，实现了文档的完整语义分析，自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要，是当前中文信息处理的必备神器，值得期待！

我们即将召开NLPIR2014发布暨ICTCLAS用户大会，由北京理工大学大数据搜索挖掘实验室主办，计算机世界与大数据论坛联合承办。张华平博士诚邀历年来所有支持我们前行的ICTCLAS用户，中文分词及中文信息处理的技术爱好者莅临参加，分享中文语言智能理解的美妙。届时，张华平博士将亲自讲解NLPIR2014背后的技术原理与最新进展，并由资深工程师在不同操作系统不同开发语言下NLPIR的实训技巧，同时还有不同背景的资深用户分享他们的使用开发经验。

在线报名：http://118.192.14.52/bigdatatrain/bm.jsp（请注明NLPIR2014；场地有限，只接收前100名）

基本信息

会议形式	(a) PPT算法讲解； (b) NLPIR2014系统演示与实际开发操作； (c) 针对学员具体需求的互动交流会 (d) 提供专属U盘：保护NLPIR2014的演示系统、各类试用的API以及新版开发手册；
会议时间	12月21日上午9:00-12:00，下午13:30-17:00 ( 17:00-18:00 开放式讨论答疑 )
门票费用	(a)1400元（包含门票，NLPIR2014演示系统、开发包与文档， U盘，工作餐，赠送由张华平博士亲笔签名的《大数据搜索与挖掘》专著）； (b) 12月10日前缴费优惠价1300元；老学员或同单位三人以上报名九折优惠；全日制学生凭学生证会费优惠价格980元，不含发票。 (c)名额有限，参会者需在参会前提前购买门票。 (d)差旅及食宿费用自理。
与会嘉宾	主讲人：张华平：NLPIR(ICTCLAS)创始人与开发者，北京理工大学大数据搜索挖掘实验室主任，博士，副教授主持人：赵燕平：北理工经管学院教授，北京理工大学大数据搜索挖掘实验室副主任特邀ICTCLAS典型用户嘉宾待定（将包括跨国企业、金融、政府机关、科研院所、投资与互联网等代表性用户）
会议地址	北京理工大学理工国际交流中心

在线报名：http://118.192.14.52/bigdatatrain/bm.jsp（请注明NLPIR2014；场地有限，只接收前100名）

ICTCLAS创始人张华平博士简介

2005年博士毕业于中科院计算所，研究方向为：微博计算、自然语言处理、信息检索与信息安全、大数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖，中科院院长优秀奖、中科院计算所所长特别奖，中科院计算所“百星计划”首批入选者。张华平作为课题组长主持开发了国家自然科学基金、863、973、242等科研课题十余项，发表《大数据搜索与挖掘》《信息检索：算法与启发式规则》《自然语言理解》等专译著3部，所研制的ICTCLAS分词系统已经向国内外的企业和学术机构颁发了三十万多份授权，在学术界和产业界得到了广泛的应用。并作为特邀技术专家，先后在中央电视台、全国网络侠客行大会、全球大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广受好评。

会议日程

时间	讲师	环节	主要内容
8:00-9:00	各位参会人员	会议报到	签到，领取各项资料。
9:00-9:20	赵燕平教授	大会开幕式	开幕式致辞，嘉宾与学员介绍
9:20-09:50	张华平博士	NLPIR2014发布	1) NLPIR2014功能展示：分词、词性标注、命名实体识别、新词识别、英文分析、关键词提取； 2) NLPIR2014开发包介绍
09:50-10:10		合影留念及茶歇
10:10-12:00	张华平博士	NLPIR2014汉语分词关键技术及最新进展	1. ICTCLAS的层叠隐马分词模型（汉语分词、未登录词识别、词性标注） 2. ICTCLAS的词典管理专利算法：完美双数组TRIE树； 3. 新词识别与关键词提取算法原理； 4. NLPIR2014英语词法分析技术；
12:00-13:30		工作午餐
13:30-15:00	张华平博士康肖钰硕士生张冰波硕士生	NLPIR2014汉语分词开发包使用实训	1. NLPIR2014 C/C++语言调用实训 2. NLPIR2014 Java语言调用实训 3. NLPIR2014 Linux调用实训 4. NLPIR2014 高级编程实训（多线程安全、用户自适应分词、python调用、关键词提取等）
15:00-15:30	朱勇高级工程师	NLPIR示范应用：黄金眼Web大数据搜索与挖掘平台	主要介绍利用NLPIR系统开发的黄金眼Web大数据搜索与挖掘平台，展示主要功能与背后的实战应用经验，目前已经应用于工信部、总参、财经杂志等单位。
15:30-16:00	姜伟（北京外事办信息中心主任）	NLPIR示范应用：政务公文主题词提取系统	主要介绍利用NLPIR系统开发的政务公文主题词系统，历经十余年，目前已经应用于大部分政府机关。
16:00-16:30	罗文川（缔元信CTO）	NLPIR示范应用：缔元信网站统计数据挖掘与应用	主要介绍缔元信利用NLPIR系统开发的互联网网站统计数据挖掘与应用，是目前网站统计方面权威的机构。
16:30-17:00	待定
17:00-18:00	张华平博士	交流沙龙	可与ICTCLAS创始人张华平博士直接交流讨论