随着2013年“双十一”网购狂欢节的结束,各项统计数据也纷纷出炉。350亿元成交额、4亿网购参与者、1.52亿个包裹……一个个以亿为单位的天文数字震撼着人们的眼球。面对这些骄人成绩,阿里巴巴集团执行主席马云表示,“我们更关注数字背后的东西,通过数字我们怎样去真正理解市场的力量。”
有调研机构认为:未来10年之内,全球的数据和内容将增加44倍。大数据时代扑面而来,凭借 大数据收集 、分析和决策,全新的商业逻辑正在被建立起来。
海量数据中读懂消费行为
自媒体时代,人们越来越愿意将自己一切行为暴露在阳光下。从一日三餐吃了什么、最爱什么牌子的衣服、最爱消费的餐厅、到哪旅游、何时生小孩、有无投资移民计划等等,人们的一切消费行为数据都在网络中有迹可循。
网络上人们的发帖以及互动留言绝对能最真实地反应出他们的喜好,也许连他们自己都不知道自己的所有言行是多么公开透明,这些被传上网络的照片、视频、文字都作为数据储存起来,这些内容都能在任何时间里被调出来,大数据下没有隐私可言。
网民的互联网世界没有隐私对于企业来说绝对是个好消息。收集消费者的一举一动,从大数据中 挖掘 消费者的喜好,预判市场走向,与此同时,改进设计后的产品也将引导着消费者下一步的流行趋势。
有权威机构预计,全球数据总量每两年就本报记者 / 朱烨会增长一倍,到2020年人类拥有的数据总量将会达到惊人的35万亿GB。在“大数据”中,存储在数据库中的结构化数据仅占10%,邮件、视频、微博、帖子、页面点击等大量非结构化数据占据了另外90%。视频、音频、图像、数字的等多种交互方式的丰富,让我们已经进入了数据信息爆炸的阶段。
牛津大学与IBM在今年年初发布的统计数据显示,28%的全球企业已经开始进行大数据实践。中国25%的企业也积极投入了大数据业务,在它们的带领下,中国正在成为极具代表性的大数据实践市场。
尽管企业们都在向大数据的方向前进,但很大一部分中国企业,对数据的应用仍然停留在数据的收集、整合和治理阶段。而如今大数据时代 分析 的数据绝不是传统意义上的数字数据,它不仅仅只是反映出产生了多少订单、商品或者二维码,有多少人来过店铺,其中多少是VIP会员,而是清楚地通过数据文本分析告诉企业管理者,这些消费者是从哪里来到哪里去,以后还会不会再来,甚至他们这次放弃消费的原因是什么。
改变用户消费习惯
拉丁美洲的一个国家,依靠大数据对偏远山区孩子上学的方式(自行车或其他方式)、交通需求以及身体特征等各种信息进行分析,从而提供了更合适的解决方案,帮助孩子们更容易的到达学校。这样的数据分析不仅仅可以用在公益事业,同样可以为企业作为参考。
在商务电子平台上,采集和分析用户数据是大数据应用很重要的方面。网络社区中的很多热门话题,往往会先于一些流行趋势预测机构的发布。对这些热点话题进行分析,能够很有效地、更早地判断出流行趋势。比如有人会表示“更喜欢更浅一些的颜色”、“这款风衣如果能搭配一个腰带我就会买”、“可惜没有亲子款”等,对这些评论进行有效的把握和分析,能够发挥出非常大的价值。
哪怕在传统门店中,大数据的介入也正在改变用户的购物习惯。例如在Zara门店内,每天顾客向导购反应的意见都会被店员意义收集起来,“这个衣领图案很漂亮”、“我不喜欢口袋的拉链”等这些细微的喜好偏差,都会被店经理统一收集起来汇总,通过Zara内部网络每天至少两次传递资讯给总部设计人员,总部接到这些意见后会很快做出设计决策,之后立刻传送到生产线,改变服装款式。结束一天的门店营业后,销售人员还会盘点每天货品上下架情况,并对客人购买与退货率做出统计,再结合柜台现金资料,交易系统做出当日成交分析报告,分析当日产品热销排名,根据这些电话和电脑数据,Zara分析出相似的“区域流行”,在颜色、版型的生产中,做出最靠近客户需求的市场区隔。
大数据时代能够将过去很多看起来不可能的事情变为可能,释放人类的潜力。在一些先进的新型服装店,已经可以做到将所有的衣服都已经贴有新型条码标签。有了新型条码之后,一件衣服被消费者拿起、放下或者试穿的信息都会准确记录,并传递到后台的管理系统上。这样一来,无论多么挑剔的消费者,试穿过多少件,甚至衣服被拿起放下多少次,这些数据都将通过分析详实的数据信息,服装企业下一步的产品开发、设计或者进货都已经有了精确的方向。
“它对我们改进产品设计、进行产品定价、客户服务、改善运营体系等,都会有非常好的帮助。”北京赛智时代信息技术咨询有限公司总经理赵刚说,虽然这些数据很零散,但我们要从这些零散的数据中挖掘出潜在的价值。基于客户反馈的产品的设计,这是大数据运用的一个重要领域。 可以预见,未来的时尚圈,除了台面上的设计能力,台面下的资讯和数据大战将是更重要的隐形战场。
NLPIR 2014大会:汉语分词系统NLPIR 2014发布暨ICTCLAS用户交流大会
汉语分词系统NLPIR(前身ICTCLAS)从2000年诞生以来,历时14年,全球用户突破30万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名,已经成为中文信息处理领域标杆性的工作。ICTCLAS创始人张华平博士倾力打造,即将推出的NLPIR2014版,是迄今为止最大的一次更新,在汉语分词体系架构下增加了对英文词法分析的支持,可以自动识别英文词汇的原型、词性标注、命名实体与关键词;并在当前汉语词法分析的基础上,实现了文档的完整语义分析,自动提取文档的人名、地名、机构名、文章作者、发布的媒体、关键词与摘要,是当前中文信息处理的必备神器,值得期待!
我们即将召开NLPIR2014发布暨ICTCLAS用户大会,由北京理工大学大数据搜索挖掘实验室主办,计算机世界与大数据论坛联合承办。张华平博士诚邀历年来所有支持我们前行的ICTCLAS用户,中文分词及中文信息处理的技术爱好者莅临参加,分享中文语言智能理解的美妙。届时,张华平博士将亲自讲解NLPIR2014背后的技术原理与最新进展,并由资深工程师在不同操作系统不同开发语言下NLPIR的实训技巧,同时还有不同背景的资深用户分享他们的使用开发经验。
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
基本信息
(a) PPT算法讲解; (b) NLPIR2014系统演示与实际开发操作; (c) 针对学员具体需求的互动交流会 (d) 提供专属U盘:保护NLPIR2014的演示系统、各类试用的API以及新版开发手册; | |
会议时间 | 12月21日上午9:00-12:00,下午13:30-17:00 ( 17:00-18:00 开放式讨论答疑 ) |
门票费用 | (a)1400元 (包含门票,NLPIR2014演示系统、开发包与文档, U盘,工作餐,赠送由张华平博士亲笔签名的《大数据搜索与挖掘》专著); (b) 12月10日前缴费优惠价1300元;老学员或同单位三人以上报名九折优惠;全日制学生凭学生证会费优惠价格980元,不含发票。 (c)名额有限,参会者需在参会前提前购买门票。 (d)差旅及食宿费用自理。 |
与会嘉宾 | 主讲人:张华平:NLPIR(ICTCLAS)创始人与开发者,北京理工大学大数据搜索挖掘实验室主任,博士,副教授 主持人:赵燕平:北理工经管学院教授,北京理工大学大数据搜索挖掘实验室副主任 特邀ICTCLAS典型用户嘉宾待定(将包括跨国企业、金融、政府机关、科研院所、投资与互联网等代表性用户) |
会议地址 | 北京理工大学理工国际交流中心 |
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)
ICTCLAS创始人张华平博士简介
2005年博士毕业于中科院计算所,研究方向为:微博计算、自然语言处理、信息检索与信息安全、大数据搜索与挖掘。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中科院院长优秀奖、中科院计算所所长特别奖,中科院计算所“百星计划”首批入选者。张华平作为课题组长主持开发了国家自然科学基金、863、973、242等科研课题十余项,发表《大数据搜索与挖掘》《信息检索:算法与启发式规则》《自然语言理解》等专译著3部,所研制的ICTCLAS分词系统已经向国内外的企业和学术机构颁发了三十万多份授权,在学术界和产业界得到了广泛的应用。并作为特邀技术专家,先后在中央电视台、全国网络侠客行大会、全球大数据技术峰会、中国网络科学大会上做大数据相关的主题演讲,广受好评。
会议日程
时间 | 讲师 | 环节 | 主要内容 |
8:00-9:00 | 各位参会人员 | 会议报到 | 签到,领取各项资料。 |
9:00-9:20 | 赵燕平教授 | 大会开幕式 | 开幕式致辞,嘉宾与学员介绍 |
9:20-09:50 | 张华平博士 | NLPIR2014发布 | 1) NLPIR2014功能展示:分词、词性标注、命名实体识别、新词识别、英文分析、关键词提取; 2) NLPIR2014开发包介绍 |
09:50-10:10 |
| 合影留念及茶歇 |
|
10:10-12:00 | 张华平博士 | NLPIR2014汉语分词关键技术及最新进展 | 1. ICTCLAS的层叠隐马分词模型(汉语分词、未登录词识别、词性标注) 2. ICTCLAS的词典管理专利算法:完美双数组TRIE树; 3. 新词识别与关键词提取算法原理; 4. NLPIR2014英语词法分析技术; |
12:00-13:30 |
| 工作午餐 |
|
13:30-15:00 | 张华平博士 康肖钰硕士生 张冰波硕士生 | NLPIR2014汉语分词开发包使用实训 | 1. NLPIR2014 C/C++语言调用实训 2. NLPIR2014 Java语言调用实训 3. NLPIR2014 Linux调用实训 4. NLPIR2014 高级编程实训(多线程安全、用户自适应分词、python调用、关键词提取等) |
15:00-15:30 | 朱勇高级工程师 | NLPIR示范应用:黄金眼Web大数据搜索与挖掘平台 | 主要介绍利用NLPIR系统开发的黄金眼Web大数据搜索与挖掘平台,展示主要功能与背后的实战应用经验,目前已经应用于工信部、总参、财经杂志等单位。 |
15:30-16:00 | 姜伟(北京外事办信息中心主任) | NLPIR示范应用:政务公文主题词提取系统 | 主要介绍利用NLPIR系统开发的政务公文主题词系统,历经十余年,目前已经应用于大部分政府机关。 |
16:00-16:30 | 罗文川(缔元信CTO) | NLPIR示范应用:缔元信网站统计数据挖掘与应用 | 主要介绍缔元信利用NLPIR系统开发的互联网网站统计数据挖掘与应用,是目前网站统计方面权威的机构。 |
16:30-17:00 | 待定 |
|
|
17:00-18:00 | 张华平博士 | 交流沙龙 | 可与ICTCLAS创始人张华平博士直接交流讨论 |
名额有限,先到先得,参会报名热线:
张老师 :13681251543 Email: zhangjie@bigdatabbs.com
在线报名:http://118.192.14.52/bigdatatrain/bm.jsp(请注明NLPIR2014;场地有限,只接收前100名)