![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据开发
Jenrey
这个作者很懒,什么都没留下…
展开
-
spark比MapReduce快的原因是什么?(比较完整)
1、spark是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的MapReduce的设设计:中间结果保存在文件中,提高了可靠性,减少了内存占用。但是牺牲了性能。Spark的设计:数据在内存中进行交换,要快一些,但是内存这个东西,可靠性不如磁盘。所以性能方面比MapReduce要好。DAG计算模型在迭代计算上还是比MapReduce的效率更高2、spark中具有DAG有...原创 2018-12-07 14:14:29 · 13355 阅读 · 2 评论 -
大数据相关开源项目汇总
调度与管理服务**Azkaban **是一款基于Java编写的任务调度系统任务调度,来自LinkedIn公司,用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序,提供友好的Web用户界面来维护和跟踪用户的工作流程。**YARN **是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,解决了旧MapReduce框架的性...原创 2018-12-06 15:25:41 · 2426 阅读 · 0 评论 -
大数据面试题以及答案整理(一)
kafka的message包括哪些信息 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等...原创 2018-09-30 10:01:26 · 1490 阅读 · 0 评论 -
推荐系统入门
1. 推荐系统是什么?推荐系统又叫个性化推荐系统,它会基于用户行为数据或物品数据,通过一定的算法,为用户推荐符合他需求的物品。试想一下这样的场景,我们有一个电商网站,有数千万种商品。有一天,进来了三个客人,A是电子产品发烧友,B是化妆品爱好者,C超级爱买书。他们想买一些符合自己喜好的商品,但是看到密密麻麻的分类列表,大脑有点转不过来。我们呢,想最快的把商品推到他们眼前,最好能让他们第一眼就...原创 2018-10-12 16:09:10 · 524 阅读 · 0 评论 -
使用log4j.properties解决MR和Spark控制台爆红的问题(不影响代码实现)
1.能解决以下问题spark程序运行时候如下所示效果MR车灯徐运行时如下所示效果2.解决办法新建一个log4j.properties文件复制下面的代码## # Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. ...原创 2018-08-01 14:17:43 · 937 阅读 · 0 评论 -
两台笔记本电脑之间实现屏幕扩展
闲置的旧笔记拿来做扩展屏正合适。但是笔记本电脑屏幕没有采集口,两台笔记本不能直接用VGA或者HDMI线连接起来实现屏幕扩展。不过还是又免费软件实现这一功能的。两台笔记本,一台性能较好的为主机,另一台稍差的作为扩展屏机。查了知乎,提到了virtual managerhttp://virtualmonitor.github.io/,折腾了一番装不上去,仔细读了说明,才发现目前只支持win7 32位...原创 2018-07-26 16:03:59 · 39366 阅读 · 0 评论 -
大数据组件各种流程总结
1.hbase1.1 hbase的读数据流程: 读数据:(0.98版本以前,0.98及以后没有-ROOT-表)1、客户端通过 zookeeper 以及-root-表和.meta.表找到目标数据所在的 regionserver(就是数据所在的 region 的主机地址)2、联系 regionserver 查询目标数据3、 regionserver 定位到目标数据所在的 reg...原创 2018-06-10 20:31:58 · 4855 阅读 · 1 评论 -
大数据平台常用组件端口号
常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 19888:jobhistory WEB UI端口Zookeepe...原创 2018-06-17 17:02:05 · 3194 阅读 · 0 评论 -
hadoop的eclipse开发环境安装
配置eclipse可视化hadoop环境1.下载 hadoop-eclipse-plugin-2.7.5.jar 并解压 此文jar包的作用是配置hdfs在eclipse中的文档目录树可视化窗口,作用如下图 把hadoop-eclipse-plugin-2.7.5.jar放入到ECLIPSE_HOME/plugins中2.在window安装hadoop安装包,把hadoop-2...原创 2018-03-28 22:40:12 · 967 阅读 · 0 评论 -
eclipse下开发hadoop的jar包配置
1.进入我们的hadoop安装目录(hadoop-2.7.5-centos-6.7.tar.gz版本),里面有我们需要的jar包 G:\myProgram\hadoop-2.7.5\share\hadoop2.按照如图所示进行添加eclipse用户自己的jar包3.把下图红线内的所有jar都添加进eclipse中(以mapreduce为例)按照上图的操作把全部添加进去...原创 2018-03-28 21:52:19 · 4258 阅读 · 0 评论 -
Hive、Hbase、mysql区别
Hive和HBase的区别Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉...原创 2018-12-07 14:15:25 · 568 阅读 · 0 评论