大数据
Python之简
人一定要逼自己一把
展开
-
Hadoop的 RPC机制的使用
1.RPC 概念 RPC:远程过程调用 (1)它允许一台计算机调用另一台计算机的子程序,不用关心底层网络通信细节,通常使用在分布式网络通信中。 (2)Hadoop 进程之间交互都是通过 RPC 来进行的,如 Namenode 与 Datanode 直接通信,jobtacker 与 Tasktracker 之间。 2.RPC 的特点 (1)透明性:远程调用其他原创 2017-12-01 23:42:05 · 517 阅读 · 0 评论 -
Maven本地仓库导入JAR包
常用的 Maven 仓库http://mvnrepository.com/http://search.maven.org/1)在 github 下载一个 jar 包 执行命令:git clone https://github.com/wzhe06/ipdatabase.git 2)编译下载的项目 在现在文件含有pom.xml目录下执行命令:mvn clean pac...原创 2018-03-18 15:20:06 · 676 阅读 · 0 评论 -
Spark on YARN 的两种模式
目前 Apache Spark 支持四种模式 分别是local:开发模式使用Standalone:Spark 自带模式,即独立模式,自带完整服务,可以单独部署到一个集群中。目前 Spark 在 standalon 模式下是没有单点故障问题,通过 zookeeper 实现的。架构和 MapReduce 是完全一样的。Spark On Mesos :官方推荐这种模式,目前而言,Spark 运...原创 2018-03-19 02:10:23 · 5181 阅读 · 0 评论 -
Zookeeper 的安装及应用
系统环境:Centos6.9Zookeeper 的介绍分布式系统-CAP 定理 1. 分区容错性 2. 一致性 3. 可用性 不可以同时满足以上三个 4. 一致性和可用性的平衡方案 最终一致性 案例:ZookeeperZookeeper 的应用实践最终一致性:保证最终数据到达一致顺序性:从同一个客户端发起的事物请求,最终会严格按照发送顺序被...原创 2018-03-25 01:06:33 · 266 阅读 · 1 评论 -
Hadoop 及 YARN 的高可用原理
HDFS 高可用配置参考http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.htmlHadoop 高可用介绍Hadoop2.x中的高可靠指的是可以同时启动2个NameNode。其中一个处于工作状态(Active ),另一个处于随时待命状态(Sta...原创 2018-03-25 17:38:54 · 1594 阅读 · 0 评论 -
Hadoop 及 YARN 的高可用(HA)配置
机器节点名称:node1、node2、node3、 Linux:Centos6.9上传 Hadoop 的配置1.使用 hadoop 用户进入/home/hadoop/apps 目录下 2.上传安装文件并解压:tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz 3.使用 root 用户创建软连接ln -s /home/hadoop/apps/had...原创 2018-03-25 18:31:55 · 5297 阅读 · 1 评论 -
Spark on Yarn提交任务缓慢
在使用 Spark on Yarn模式在集群中提交任务的时候运行很缓慢,并且还报了一个WARN 使用集群提交任务 ./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ --executor-memory 1G \ -...原创 2018-03-22 01:03:46 · 2336 阅读 · 0 评论 -
数据可视化处理 ECharts
数据可视化常见框架: 1)echarts 工作推荐(百度开源) 2)highcharts 3)D3.js 4)HUE 前三个需要开发 5)Zeppelin 推荐本次主要使用的是 ECharts 框架开发教程官网下载我们需要的是完成的,自己也可以用常用的 点击打开后是 js 文件 将文件保存 echarts.min.js 创建Web项目使用 IDEA 在 ...原创 2018-03-22 01:24:12 · 2813 阅读 · 0 评论 -
Kafka 的配置及应用
Kafka 简介1.简介 Kafka 对消息保存根据 Topic 进行归类,发送者称为 Producer,消息接受者称为 Consumer,Kafka 集群中有多个 Kafka 实例组成,每个实例称为 broker。无论是 kafka 集群,还是 producer 和 consumer 都依赖于 zookeeper 来保证系统可用性集群保存一些 meta 信息。 使用 Sc...原创 2018-03-27 22:42:57 · 1675 阅读 · 0 评论 -
Hadoop 上 Hive 的安装与启动
我把最近 Hadoop 学习的版本换成 CDH(感觉集合性比较好) CDH 地址:http://archive.cloudera.com/cdh5/cdh/5/下载 Hive 的版本:hive-1.1.0-cdh5.7.0.tar.gz1)第一步:解压 Hive解压命令:tar -xvf hive-1.1.0-cdh5.7.0.tar -C /opt2) 第二步:mysql...原创 2018-03-11 17:32:00 · 12673 阅读 · 1 评论 -
MapReduce中常用的 MRunit
环境配置 在 Maven 中添加依赖<dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</artifactId> <version>1.1.0</version> <classifier>hadoop2</classifier> </dependency>MRUnit测试原创 2017-12-29 21:18:53 · 340 阅读 · 0 评论 -
Scala 程序运行中遇到的错误
网上有好多出现相同问题的,但是都没说解决办法,下面是自己遇到的一些问题。 后续遇到会继续补充 问题是在本机运行的 IDEA 里面遇到的。错误1Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class at org.apache.spark.SparkConf$Deprecated原创 2018-01-13 17:30:54 · 12648 阅读 · 1 评论 -
MapReduce 的二次排序
关于二次排序一下是我的理解: 正常的 MapReduce 排序就是 map 输出(k,v),排序的时候是 map 中的 compareTo对 k 的大小进行排序: 数据如下:20 21 50 51 50 52 50 53 50 54 60 51 60 53 60 52 60 56 60 57 70 58 60 61 70 54 70 55 70 56 70 57原创 2017-12-11 02:24:19 · 317 阅读 · 0 评论 -
hbase无法启动Regionserver:Failed construction of Regionserver: class org.apache.hadoop.hbase.regions问题解决
出现的错误 2017-12-19 21:27:34,510 ERROR [main] regionserver.HRegionServerCommandLine: Region server exiting java.lang.RuntimeException: Failed construction of Regionserver: class org.apache.hadoop.hbase.原创 2017-12-19 22:04:43 · 8558 阅读 · 3 评论 -
MapReduce简单入门 wordcount
环境:namenode(主机名hdp01) 1台 datanode (主机名hdp02 hdp03)2台 已搭建集群分布 启动 YARN,输入 jps 查看是否启动 NodeManager 三台机器都要启动,网页访问 hdp01:8080查看管理页面 搭建好集群服务,并且启动 YARN 服务。M原创 2017-12-03 02:57:56 · 361 阅读 · 4 评论 -
新手安装hadoop伪分布式教程
安装环境 VirtualBox虚拟机 CentOS6.9系统 hadoop2.6.5(最新版一样,向下兼容低版本jdk) jdk包 1.8 伪分布式就一台虚拟机第一步 在VirtualBox创建一个CentOS虚拟机 附上镜像下载地址(最低的好像就是6.9其他的都没有) https://mirrors.tuna.tsinghua.edu.cn 我下载的是mini版,没有图形界面的原创 2017-11-21 12:50:25 · 1050 阅读 · 1 评论 -
IDEA 下使用maven 创建 MapReduce(配置环境 Mac OS)
第一次使用 maven 创建项目,第一次碰到的坑不少,但是 maven 的确好用啊!!看别的好多博客写的教程不清楚,并且好多都是复制的,期间遇到了好多坑也没解释。简单说下步骤,和我遇到的坑~~~~环境:IDEA JDK1.8(已配置)maven(官网下载的没使用 IDEA 自带的)第一步:maven 搭建 1. 官网下载 http://maven.apache.org/download.cgi原创 2017-12-05 12:27:38 · 5719 阅读 · 3 评论 -
配置 hadoop 环境
环境Centos6.9 第一步配置网卡 用 virtualBox 安装的默认是 NAT网卡, 自己要添加一个 hostnoly 网卡 自己先添加一个网卡 给虚拟机添加上 修改网卡cd /etc/sysconfig/network-scripts/将ifcfg-eth0拷贝一份cp ifcfg-eth0 ifcfg-eth1修改 ifcfg-eth1的内容DEVICE=eth1TYP原创 2017-12-19 13:04:12 · 195 阅读 · 0 评论 -
IntelliJ IDEA下 Maven 创建 Scala 项目
环境:IntelliJ IDEA 版本:Spark-2.2.1 Scala-2.11.0利用 Maven 第一次创建 Scala 项目也遇到了许多坑创建一个 Scala 的 WordCount 程序第一步:IntelliJ IDEA下安装 Scala 插件 安装完 Scala 插件完成第二步:Maven 下 Scala 下的项目创建原创 2018-01-13 17:22:21 · 28538 阅读 · 3 评论 -
Docker 的基本使用
安装 docker 后 查看 docker 的镜像 docker images查看进程 docker ps 查看已经终止的 docker ps -a停止进程 docker stop 58dfed71e41bDocker 在容器内的改动都是暂时的保存改动为新的 image docker commit -m ‘fun’ ID name停止容器 docker stop...原创 2018-03-29 10:46:28 · 167 阅读 · 0 评论