浅聊大数据

刚刚和同事聊工作,说其它部门有同事想转到我们部门做大数据(目前供职于国内某家电商公司大数据部门),说是挺合适的。问为什么想过来,怎么合适。原因仅仅是因为他会Hadoop技术(据说1.0与2.0版都搭建起来过),所以说做大数据没有问题。由感而发,想写篇文章聊聊大数据,首先不谈对错,请听本人娓娓道来。由于一直混迹于IT行业(确切来说应该是垂直搜索、文本挖掘、数据分析建模行业),负责的工作原因,从刚毕业到现在总共领导实施过包括政府、公安、地税、网监、事业单位、银行、电信、医疗、食品、房地产、出版社、广告、电商等不少行业的项目,开发和实施的产品从最开始比较热门的“网络舆情监测”、“企业竞争情报分析”、“文本挖掘系统”、“商业智能(BI)”到目前圈内比较热门产品的 “广告精准投放系统”、“用户精准营销系统”、“个性化推荐系统”等,也算是一个“大数据”圈内人吧,就拿之前和现在的经验来扯扯。

说起大数据,请先思考以下几点:

大数据是什么 – “What”

大数据真正的意义和价值在哪 – “Why”

大数据最终的业务应用结合点在哪 – “How”

 

首先聊聊目前热炒的大数据是什么?

先看一下目前最流行的大数据具有的“4V”特点,即:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。再看看百度百科的说法:“大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。”

说得简单明了,其实数据本身就在那里,对于企业来说,自身的数据肯定是越积累越多,牵扯的面广了,收集的多了,也就有了海量数据(大数据)

再来简单聊聊大数据相关的技术,一提到大数据技术,在业内可能有相当部分人首先会立刻联想到“Hadoop”。OK,先简单回顾一下Hadoop的前世今生:Hadoop原本是基于Nutch(一个开源Java 实现的分布式搜索引擎)项目中的一个组件,用作分布式网络爬虫的URL和结果文本的存储,是一个分布式存储和计算的开源解决方案,一种更有效率地管理海量数据的实现方式。由于其最初的设计思路和架构的原因,Hadoop在海量数据处理方面固然有它独特的优势,然而大数据真的离开它就不行了吗?真的不用Hadoop的技术架构就不叫大数据架构了吗?用关系型数据库,NoSQL,内存数据库,全文索引做的系统就真的不是大数据系统了?如果真的这样认为,未免太狭隘和偏激了,绝对以技术出身的人居多。然而对于大部分的企业来说,真的有那么多数据吗,真的到了非得用这些所谓大数据专用技术和算法才能解决问题吗?一门新兴技术的出现,必然是因为业务和需求使然

 

由此引发“大数据真正的意义和价值”到底在哪?

归根结底,什么技术算是大数据技术,什么产品是大数据产品,做什么工作算是大数据相关的工作,到底为什么要做这些事?其实问题很简单,上面的“4V”特点已经说明一切:能从分散在各种地方、使用不同数据结构存储的海量数据中,高速而有效率地提取出对公司业务或个人有价值的数据出来,就是大数据真正的意义和价值。并非是简单的通过某种新兴技术(Hadoop),来替换掉原有的技术,换一种存储格式,出一张看似比原来更快的报表,就是做大数据了。

个人一直认为,对企业业务或个人起作用的产品,都是好的产品,技术是为业务和需求服务的,而不是为了证明程序猿们有多牛X,这点绝对不能本末倒置。

 

那么,大数据最终的业务应用结合点在哪?

其实各行各业,包括每个人早就已经在不同程度上接触到了所谓的大数据,只是目前把这种社会现象重新通过“大数据(Big Data)”这个看似高大上的名词统一规范了而已。如何解释:首先就每位自身发生的事情来说,网民A打开电脑查些资料,必然会想到用百度或谷歌,为什么,就是因为能在上面找到自己想要的资料和信息;之前在某个论坛上面刚曝光了一些负面消息,没过几个小时就被删了帖子;还有因为自己写的东西包含某些敏感信息导致微博或短信发送不出去等现象。其实这些就是通过海量数据挖掘和分析而衍生出来的大数据软件产品《搜索引擎》、《网络舆情监测》、《文本挖掘》等,国内从07、08年左右开始,以上产品才真正投入市场并开始广泛传播应用,算是相对成熟的产品。

再说说这两年比较火,比较典型的业务应用:1. 当用户看新闻,会看到各种广告,其实细心的人会发现怎么这两天刚在网上买了件衣服,而广告内容恰恰就是衣服的广告;2. 用户想买台电脑,在某电商网站上看了几款,没过几分钟,就发现该电商网站内的各个广告位都悄悄变成了电脑产品;3. 企业需要降低营销成本、提升点击和购买转化率,也会为不同类型的人群定制不一样的促销信息和促销手段,结果是:每位收到促销邮件的用户,里面的内容是不一样的,而某类人群也会减少受到营销短信轰炸之苦;相反,土豪们则会被层出不穷的营销手段所骚扰。这些应用就是现在业内比较火的《广告精准投放》、《个性化推荐》、《精准营销》之类的产品所实现的效果。

当然,以上几类产品只是现在已成型或逐步成型且具有大数据鲜明特点的应用,像现在更高层次的“智慧小区”、“智慧城市”、“智能机器人”、“社会化CRM”这种绝对高大上的东西则是神一样的存在,想做出一个可实用的典型案例出来更是任务而道远。

 

PS:最后回到开头提到的那个小故事。个人认为,不管你擅长WEB页面、应用开发、DB、ETL、搜索等技术,或是写PPT EXCEL、玩算法或架构,只要能从海量数据中提出、存储和展现出有应用价值的数据,就是在做有意义的大数据工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值