自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陈在熙的博客

大数据 及 java 的感受想法以及资料

  • 博客(4)
  • 收藏
  • 关注

原创 在云服务器上从0安装CDH5.4.0 步骤

第一步(五台完成):查看防火墙状态:chkconfig iptables --list关闭防火墙  service iptables stop启动级别关闭防火墙 chkconfig iptables off 第二步(五台完成):修改hosts文件(也是必须的)vi /etc/hosts10.253.24.150   master1.com     master110.1

2016-06-06 15:39:34 969

原创 spark概念以应用场合

Spark与Hadoop的对比Spark的中间数据放到内存中,对于迭代运算效率更高。Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念。Spark比Hadoop更通用Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,

2015-08-07 16:46:05 540

原创 centos7 安装伪分布式Hadoop

1 修改静态IPsu root   获得权限cd /etc/sysconfig/network-scripts/ls   找到类似ifcfg-eno16777736 的文件vi ifcfg-eno16777736进行如下修HWADDR=00:0C:29:E0:EA:CTYPE=EthernetBOOTPROTO=staticDEFROUTE=yesPEERD

2015-07-24 11:13:36 308

原创 如何学习大数据 以及大数据解决的问题

1.数据的来源多样性。例如关系数据库+文本+excel等2.数据量大。TB级别的数据。3.业务应用领域。实时性高与实时性不高的应用。学习大数据应该就是要解决上述三个技术问题。针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据,需要抽取一些客户的基本信息。上万的文件,多种数据库,每

2015-07-20 09:07:45 464

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除