教你如何成为数据科学家(七)

接着上面,下来是big data,又是一个时下最火的话题。看看原作者思考关于大数据有哪些技能点需要掌握。


  1. Map Reduce Framework                                                    MapReduce框架
  2. Hadoop Components                                                          hadoop组件(和上面一样,目前最流行的大数据框架)
  3. HDFS                                                                                  HDFS (hadoop的分布式文件系统)
  4. Data Replication Principles                                                 数据复制策略(由于可靠性的要求,数据在系统中是复制保存的,需要根据需要的可靠程度,来决定数据复制的份数)
  5. Setup Hadoop ( IBM / Cloudera / HortonWorks )                 安装Hadoop(注意有多个厂商的发行版,常见的为 IBM / Cloudera / HortonWorks
  6. Name & Data Nodes                                                            名称和数据节点(hadoop里面的概念)
  7. Job & Task Tracker                                                             任务 任务跟踪(同样是hadoop里面的概念
  8. M/R Programming                                                                Map/Reduce方式编程
  9. Sqoop : Loading Data in HDFS                                            Sqoop是一个工具,用来将传统数据库中的数据导入到hadoop中
  10. FlumeScribe : For Unstructured Data                                2种日志相关的系统,为了处理非结构话数据
  11. SQL with Pig                                                                        利用Pig语言来进行SQL操作(Pig是hadoop相关的新的语言)
  12. DWH with Hive                                                                     利用Hive来实现数据仓库(Hive也是hadoop相关的数据库)
  13. ScribeChunkwa For Weblog                                             2种web日志相关的系统
  14. Using Mahout                                                                      使用Mahout(一种机器学习相关的算法实现)
  15. ZookeeperAvro                                                                 使用zookeeper、avro
  16. Storm : Hadoop Realtime                                                     使用实时处理架构storm
  17. RhadoopRHIPE                                                                  将R和hadoop结合起来2种架构
  18. rmr                                                                                        是R的一个包,和hadoop相关的
  19. Cassandra                                                                           一种流行的NoSql数据库
  20. MongoDBNeo4j                                                                  前者也是一款NoSql数据库,后者是一款图数据库
最后还是提醒一下,最近的不少大牛都在反思大数据,不能因为要用大数据,所以构造出数据来。很多大牛提醒你,你的数据还不够大!!!

有的时候,数据完全可以加载到内存中,就可以完成所有的分析,不需要搭建一个分布式的hadoop然后进行大数据相关的几种操作。




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值