分布式运算
lynne233
偶尔写影评剧评,豆瓣账号:https://www.douban.com/people/lynne_xuan/reviews
展开
-
Hadoop、HDFS和Map/Reduce
Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算框架。Hadoop的核心是分布式文件系统HDFS和map reduce模型。HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有原创 2016-08-17 22:33:45 · 1557 阅读 · 0 评论 -
Sqoop导入数据到hdfs
从Postgre导入数据到hdfs需要是用Sqoop。Sqoop是一个开源的工具,能将数据表从关系数据库导入HDFS或Hive上。安装Sqoop配置好环境,执行命令:sqoop import --connect jdbc:postgresql://1.1.1.1:5432/lrs --username user --password psswd --table table_statemen原创 2016-08-17 22:51:14 · 2114 阅读 · 0 评论 -
使用Python实现Map Reduce程序
Hadoop 框架是使用Java编写的但是我们仍然需要使用像C++、Python等语言来实现 Hadoop程序。在Hadoop官网https://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html上有java版本的示例,但是其他语言的没有。前几天我需要用hadoop做一些统计,但是很久没有写过java了,一时半会儿觉得太麻烦。所以决定用pyt原创 2016-08-18 17:51:13 · 455 阅读 · 0 评论 -
最近看到的spark资料整理
先分享一个链接http://cacm.acm.org/magazines/2016/11/209116-apache-spark/fulltext#F2这是spark开发团队写的,读完之后会对spark更了解一点。因为现在我也处于开始学习的阶段,不敢说理解。spark的特点:相比于mapreduce,spark是基于内存的,在分布式环境下,spark将作为转化为有向无环图DAG,并分阶段进行D原创 2016-11-07 20:59:08 · 681 阅读 · 0 评论