陈在熙-CSDN博客

原创在云服务器上从0安装CDH5.4.0 步骤

第一步（五台完成）：查看防火墙状态：chkconfig iptables --list关闭防火墙 service iptables stop启动级别关闭防火墙 chkconfig iptables off 第二步（五台完成）：修改hosts文件（也是必须的）vi /etc/hosts10.253.24.150 master1.com master110.1

2016-06-06 15:39:34 974

原创 spark概念以应用场合

Spark与Hadoop的对比Spark的中间数据放到内存中，对于迭代运算效率更高。Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。Spark比Hadoop更通用Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,

2015-08-07 16:46:05 549

原创 centos7 安装伪分布式Hadoop

1 修改静态IPsu root 获得权限cd /etc/sysconfig/network-scripts/ls 找到类似ifcfg-eno16777736 的文件vi ifcfg-eno16777736进行如下修HWADDR=00:0C:29:E0:EA:CTYPE=EthernetBOOTPROTO=staticDEFROUTE=yesPEERD

2015-07-24 11:13:36 313

原创如何学习大数据以及大数据解决的问题

1.数据的来源多样性。例如关系数据库+文本+excel等2.数据量大。TB级别的数据。3.业务应用领域。实时性高与实时性不高的应用。学习大数据应该就是要解决上述三个技术问题。针对第一个问题，就是ETL技术-数据的抽取，清洗，加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据，需要抽取一些客户的基本信息。上万的文件，多种数据库，每

2015-07-20 09:07:45 468

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 在云服务器上从0安装CDH5.4.0 步骤

原创 spark概念以应用场合

原创 centos7 安装伪分布式Hadoop

原创 如何学习大数据 以及大数据解决的问题

空空如也

空空如也

原创在云服务器上从0安装CDH5.4.0 步骤

原创如何学习大数据以及大数据解决的问题