接着上面,下来是big data,又是一个时下最火的话题。看看原作者思考关于大数据有哪些技能点需要掌握。
- Map Reduce Framework MapReduce框架
- Hadoop Components hadoop组件(和上面一样,目前最流行的大数据框架)
- HDFS HDFS (hadoop的分布式文件系统)
- Data Replication Principles 数据复制策略(由于可靠性的要求,数据在系统中是复制保存的,需要根据需要的可靠程度,来决定数据复制的份数)
- Setup Hadoop ( IBM / Cloudera / HortonWorks ) 安装Hadoop(注意有多个厂商的发行版,常见的为 IBM / Cloudera / HortonWorks)
- Name & Data Nodes 名称和数据节点(hadoop里面的概念)
- Job & Task Tracker 任务 任务跟踪(同样是hadoop里面的概念)
- M/R Programming Map/Reduce方式编程
- Sqoop : Loading Data in HDFS Sqoop是一个工具,用来将传统数据库中的数据导入到hadoop中
- Flume, Scribe : For Unstructured Data 2种日志相关的系统,为了处理非结构话数据
- SQL with Pig 利用Pig语言来进行SQL操作(Pig是hadoop相关的新的语言)
- DWH with Hive 利用Hive来实现数据仓库(Hive也是hadoop相关的数据库)
- Scribe, Chunkwa For Weblog 2种web日志相关的系统
- Using Mahout 使用Mahout(一种机器学习相关的算法实现)
- Zookeeper, Avro 使用zookeeper、avro
- Storm : Hadoop Realtime 使用实时处理架构storm
- Rhadoop, RHIPE 将R和hadoop结合起来2种架构
- rmr 是R的一个包,和hadoop相关的
- Cassandra 一种流行的NoSql数据库
- MongoDB, Neo4j 前者也是一款NoSql数据库,后者是一款图数据库
最后还是提醒一下,最近的不少大牛都在反思大数据,不能因为要用大数据,所以构造出数据来。很多大牛提醒你,你的数据还不够大!!!
有的时候,数据完全可以加载到内存中,就可以完成所有的分析,不需要搭建一个分布式的hadoop然后进行大数据相关的几种操作。