网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
如果我们选择了强一致性,又要满足分区容错性,就势必会牺牲一部分可用性。
注意:
- CAP理论只适用于分布式系统
CAP理论的典型分布式系统
选择CP: HBASE
选择 AP: zookeeper,HDFS
选择CA: elasticsearch
大数据技术栈
-
数据采集和传输层: flume. logstash, sqoop,kafka,pulsar,HUE
-
数据存储层: HBase,Kudu, HDFS,
-
数据分析层: Spark,flink,Storm, MapReduce,HIVE,Tez,pig,mahout,phoenix
-
OLAP引擎: Druid , Kylin,lmpala, presto
-
资源管理层: yarn,kubernetes, mesos
-
工作调度器: Oozie , Azkaban
-
监测管理: openTSDB ,Ambari,ganglia
-
其他: zookeeper,chubby
-
文档存储: mongoDB, CouchDB
大数据:注重海量数据存储与处理,基本处于PaaS ,平台即服务
云计算:侧重于硬件资源虚拟化,基本处于LaaS ,基础设施即服务
不过现在的阿里云,亚马逊云等公有云,以及不单单是卖虚拟化的计算资源了,也会涉及到大数据,图像识别,数据库,云安全等,所以现在的云计算已经涵盖了laaS,PaaS,SaaS等方方面面。
除了按照这种技术栈来区分之外,有时候还会按照数据的实时处理程度分为: 批量计算和实时在线技术。
批量计算就是我们常说的离线计算。一次性处理大量数据,吞吐量大,但延时较高。适合数据ETL等场景。
大数据的适用场景
最近跟一家公司对接,他们做的就是大数据的河海农业数据分析。比如展示某一个地区的2010-2020年,10年的降水量。
最近炒得比较火的是交通大数据,实时采集交通信号灯,二氧化碳传感器,汽车位置和速度传感器,以及来自网上的社交媒体的数据,来进行分析。 帮助乘客重新规划路线,节省时间。
金融行业的智慧金融,可以分析客户的数据,来给用户精准提供贷款或者推荐商品。
人工智能,最火的例子就是google的AlphaGo, 人工智能可以进行自主学习,不断完善。 当然除了下棋,还有人脸识别,语音识别,机器翻译,无人驾驶,智能机器人等领域都有很大的威力。
大数据小故事
某比萨店的电话铃响了,客服人员拿起电话。
客服:XXX比萨店。您好,请问有什么需要我为您服务 ?
顾客:你好,我想要一份披萨
客服:先生,烦请先把您的会员卡号告诉我。
顾客:16846146***。
客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?
顾客:你为什么知道我所有的电话号码?
客服:陈先生,因为我们联机到CRM系统。
顾客:我想要一个海鲜比萨……
客服:陈先生,海鲜比萨不适合您。
顾客:为什么?
客服:根据您的医疗记录,你的血压和胆固醇都偏高。
顾客:那你们有什么可以推荐的?
客服:您可以试试我们的低脂健康比萨。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!