我目前使用的数据库是MySQL,虽然大数据时代大家都在提NoSQL,认为SQL在大数据时代已经不重要,实际并非如此,MySQL在BI报表系统中扮演了很重要的角色。与此同时,大数据平台也引入了SQL,从而使得大量的分析人员、工程师使用SQL从海量数据中快速查询内容。
Hadoop体系是个非常了不起的,围绕它业界建立并不断丰富了它的EcoSystem,从最传统的HDFS、MapReduce,到诸如Hive、Scribe、Zookeeper、HBase等等。我们的大数据工作实际上已经很难离开Hadoop了,在百度你经常会听到工程师说今天要跑个任务,百度的Hadoop集群已经是万级别的规模了,存储、计算、调度百度都研发了新一代的系统,尽管如此,其本源仍然是Hadoop体系。中小规模的公司,如果用到大数据,我建议义无反顾地去加入到Hadoop生态体系的怀抱,搭建一个Hadoop系统并不困难,从学习到配置各类参数搭建好两三天就够了,想要从大数据中查询用Hive;想要出天级报表,最简单的方法就是每天跑个Mapreduce任务或者写个HQL任务灌入到Mysql即可。
Hadoop体系是个非常了不起的,围绕它业界建立并不断丰富了它的EcoSystem,从最传统的HDFS、MapReduce,到诸如Hive、Scribe、Zookeeper、HBase等等。我们的大数据工作实际上已经很难离开Hadoop了,在百度你经常会听到工程师说今天要跑个任务,百度的Hadoop集群已经是万级别的规模了,存储、计算、调度百度都研发了新一代的系统,尽管如此,其本源仍然是Hadoop体系。中小规模的公司,如果用到大数据,我建议义无反顾地去加入到Hadoop生态体系的怀抱,搭建一个Hadoop系统并不困难,从学习到配置各类参数搭建好两三天就够了,想要从大数据中查询用Hive;想要出天级报表,最简单的方法就是每天跑个Mapreduce任务或者写个HQL任务灌入到Mysql即可。