从小白到大数据科学家

    如果没时间,那么我总结一句话:利用业务思维,看清数据本质,扎实技术路线,从中获取智慧。

       也许你会说真虚,那就请“浪费”几分钟阅读下下面的文字,再回来感悟下,也许你会有所收获。

       下面结合参加北大“智能多媒体大数据研讨会”,听取很多业界大牛相关工作的分享。In some way,I got some information and it broaden my horizons.Then i will share my feeling.

1、认识大数据

    今天报告涉及到很多方面:医疗(包括基于天河超级计算机的应用)、城市计算(主要是交通、环境监测)、媒体大数据挖掘搜索、工业大数据、物联网大数据、网络分析系统等。基本涵盖了当前大数据领域的各类应用(缺少了安全大数据:>:)。整体来说,从多角度对大数据进行了定义,以及对特定领域的应用展示(展示的一些系统据介绍都是五六年的成果,所以做东西还是要钻进去,搞研究还是需要沉下心)。
    说说从我自己角度的理解,众所周知,大数据有4V特点,但是大数据强调的不仅仅是数据量 “大”,我们应该去更多的关心其 多元数据的融合。当前各个领域大数据量其实已经达到了我们需要的量级,怎么样从中 获得价值,这才是我们的最终目的。这就分两种情况来讨论,数据量足够大、数据量不够大。
    无论哪个应用场景,首先要理解其 业务模型 ,这是运用好大数据的起点也是终点。举个栗子,最常见的购物推荐,我们要理解人们购物的习惯比如购物的周期性、购物兴趣、物品之间的关联,以及对业务更深层次的理解,比如:人们在发了工资后容易发生购物行为、朋友的推荐会更直接等。所以 看数据,想模型,取价值
    另一方面,要 注重数据的关联规则做到盲人能够摸象比如有时候我们可能只有一部分数据,但是我们能从多维度分别获取数据。日常的交通预测是个问题,可能你只有出租车移动数据,那怎么预测整个城市的交通呢。你可以 气象数据+社交信息数据挖掘+出租车数据 => 整个城市流量分析 。再比如给一个用户推测旅游线路但是之前没有用户旅游相关的信息,那么如果有用户之前买书的信息以及其社交信息,那么就可以分析用户的兴趣进而可以完成相应的推荐。从而让“盲人摸象”成为可能(其实这头象也可以理解为以hadoop为代表的大数据,在茫茫的大数据之中,我们可能就是那个“盲人”)。
    其实在今天还对蝉联了六次世界计算速度冠军的天河超级计算机有了个了解,首先猜一下它的内存,不敢想象啊!!! 2.6PB!什么概念反正我是被吓到了。其实天河超级计算机具体的架构实现可能不太了解,但是其作用还是挺大的,比如核模型计算、电影动态渲染、基因工程匹对等,以前可能只是感觉是waste money,but 确实很强悍,也能处理很多任务。比如那位老师举得例子中石油先往账户打个几千万,说这个月把服务器的其它应用者先清理下,我要用!只能说土豪,只能说天河计算机也很赚钱。其次,天河计算机相关paper也很多,其它交叉学科,在上面搞个模型应用,其性能提高了多少,与其他相比提高了多少。。。这样easy顶级paper就诞生了(其实也是做了很多工作滴)。天河超级计算机虽然造价不菲,但是也创造了很多价值。。
    总的来说,大数据不仅是4V,更多的是学会数据融合,应用关联规则,才能发现我们需要的价值。

2、大数据应用思路

    总的来说: 数据获取+数据清洗+数据模型+数据预测+信息反馈+相关决策(数据->信息->知识->智慧)
    有人这样描述大数据,大数据就像青春期的“性”,在每个人的心理都蠢蠢欲动,但又总是掩于一些事情,每个人都以为自己懂,每个人都以为自己不懂,每个人又都以为别人都明白都在用。是的,大数据对于我们来说某些层面上是虚无缥缈的就像云计算名字那样,不知所云( 有个笑话是:一天如来叫过来孙悟空,悟空乘云而来,如来说悟空知道什么是云计算么?悟空说:俺老孙确实不知,还请如来指点。如来指着旁边的云问:你知道这边一朵云加上那边一朵云是几朵云么?悟空若有所思答道:是两朵!如来说:对,这就是云计算 大笑)。 大数据其实真正理解后,透过其面纱,你就会发现其实它不是那么虚假,其实可以落地,而且落地的方式和飞机也差不多,是有个轨道可寻的。
正如本段刚开始所言,就是那个轨道,但是虽然是轨道,但其构造、长度、样式可能千差万别。 数据获取 ,每个应用的行业可能数据来源不同,数据采集方式、数据格式、数据特征等千差万别。比如:医疗大数据可能更多的方式是医院记录、人们生活相关记录以及药物作用人们相关的反应记录等;而交通大数据可能就会通过探测器、CPS、移动浮标等形式来获取;多媒体应用等更多的是通过网络爬虫、人们的社交信息等渠道来获取。总之你有一万种办法,只为取那一瓢。 数据清洗 ,其目的是数据规整、数据压缩、特征获取。一般数据比较粗糙,我们需要从中来过滤下从而转化为我们需要的数据,获取数据特征扩展其维度,一般物极必反我们需要找到个点,更多的是拐点,来避免数据过拟合等。所以我们可能经过模型训练后还需要在反过来进行数据压缩,为模型分析提供更好的原材料。 数据模型, 数据模型更多地是我们结合业务需求来做分析模型,比如利用机器学习、深度学习相关的知识建立相应的模型。比如:结合聚类、LR、SVM、马尔科夫模型、神经网络相关的方法建立综合模型,进一步进行数据预测。 数据预测, 更多地是基于数据模型的模拟训练的结果,数据预测的好坏更多的也是基于数据模型,而数据模型中的一个重要问题是 数据标注, 而有时候数据维度太多我们不好标注所以一种思路就是选择Top-K相关的特征进行标注。万物总有一个根源,所以去找出那个万物的通用特征来进行预测,可能是我们需要去努力找寻的。 信息反馈, 这可能更多地是涉及数据可视化的一个方向,主要包括数据实时流以及信息背后隐藏信息关联的展示。无论是信息还是其他事情都有时间周期性,不同的时间粒度可能展示出来的信息作用是不同的,比如医疗麻醉用量我们可能就是需要在几秒内来做出预测,可能利用相关用户相关健康特性来瞬间预测出来,这样才有指导意义;对于城市路线规划,我们可能更多关注地可能是一定周期比如一个月半年来总的城市流量分析,来进行展示。相关决策,很简单理解就是根据统计规律或者模型预测的可视化展示来进行我们对设施的部署、医药用量、资金投入等来做最优化的决策,转化为我们的智慧!
    还是那句话,大数据的航道就在那,就看你怎么去布置适合自己的,为翱翔于云层之上来助力。

3、大数据科学家修炼之路

    (最近比较忙,一直没有来更新这一部分,今天就先写一些,以后有想到的在添加。)
    首先有个心理准备:正常来说,培养一个大数据科学家需要七年!!! 但是效益也是成正比的,如果你修得正果,你的工资也不会低于7位数。这是微软郑宇研究员的原话,如果达不到直接去找他,(跟他干)他给你付。(以下也是根据郑宇的演讲的自己的理解)。
    如果没有时间还是看图,成为大数据科学家的基本素质也都包含在以下图中。

大数据科学家需要具备的素质:
1.基本功
    这部分包括我们平常所说的作为一个普通程序员应该有的基本素质和业务能力。 首先 你需要有基本的编程能力,能够了解基本的算法,这样才利于和别人交流。比如R、python、java、scala等基本语言的使用,能够利用一些脚本对平常自己所从事的工作,进行自动化处理。 其次 ,基本的实践,对大数据、云计算相关技术等了解。能够使用其中的一些来完成一些基本的需求,能够根据需求搭建设计符合自己的系统应用。
2.模型和算法
    模型也即使对机器学习、深度学习、NLP相关算法模型的理解与应用场景的熟知。这就需要对机器学习领域有个深入的学习,感觉不能停留在浅显的认知与熟悉阶段,要对常用的经典的进行实践,进而自己总结其应用场景或者某种模型适合做的处理或者利用模型融合来进一步探索其模型内在意义。
算法这个就不用多说了,感觉这是一个需要很深的内力,尤其对于大数据领域,算法的重要性不言而喻。何万青博士曾经介绍把一件事做快做好的三种方法,其中就提到过“提高流水线效率、更好的算法和更短的代码关键路径。”可以看出算法在系统效率中的重要地位。算法是让机器按照人类设想的方式去解决问题,算法很大程度上取决于问题类型和工程师对机器编程的理解,其效率的高低与算法息息相关。在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。在大数据时代,算法的功能和作用得到进一步凸显。比如针对公司搜索业务,开发搜索相关性算法、排序算法。对公司海量用户行为数据和用户意图,设计数据挖掘算法。
3.数据理解
    对于每种应用来说,我们面对的数据千差万别,包括其种类、维度、完整性、数据规整、数据质量等。这就需要我们面对各种各样的数据,都能够有相应的处理方法,换个时髦的名词就是“数据思维”。对于数据我们要能做到,数据的清洗的方法或者能力,能够做到将多元数据的融合,发现其背后的关联性。
4.问题转化能力
    对于大数据将要应用的不同场景,我们要能分清其问题的本质,能够从已有的数据中发现价值进而来解决问题。这就比如对于城市拥堵、工厂污染、垃圾处理、医疗生活等,我们要能够将生活中遇到的问题来用大数据的思维来考虑并进一步将问题转化为相应的模型,应用大数据相应的技术通过数据来对问题进行相应的优化或者解决提供解决思路或者决策。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值