自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

转载 RDD和DataFram转换

一:RDD与DataFrame转换 1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的,例如Person,而Person有name,id等,而record是不知道这些的,但是变成DataFrame背后一定知道,通过反射的方式就可以了解到背后这些元数据,进而转换成DataFrame。 如何反射? Scala: 通过case class映射,在case

2017-11-16 16:51:40 385

原创 idea使用常见问题

1 编译通过,运行不成功,提示找不到类  解决:  将idea关闭,在项目根目录下打开cmd,执行  mvn   idea:clean    (清除生成的文件)             再执行mvn idea:idea   (idea重新生成文件)  打开idea,选中一个目录,执行最后重新运行

2017-11-16 10:12:23 443

原创 storm和kafka整合案例

package lantaiyuan.rtscheduling.topology;import java.net.InetSocketAddress;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;im

2017-10-01 11:05:04 674

原创 flume实现从kafka读取消息到hive

这里以公司三台服务器为例  192.168.2.250(master)   192.168.2.251;192.168.2.252参考博客    http://miximixi.me/index.php/archives/9611.安装 kafka,flume,hive,zookeeper2. 在master(192.168.2.250)主机下    vi  flume/con

2017-08-14 15:21:03 1310

原创 sqoop实现mysql到hive数据库的导入导出

使用sqoop直接执行导入导出写法从mysql导入到hivesqoop import -Dorg.apache.sqoop.splitter.allow_text_splitter=true --connect jdbc:mysql://10.20.30.105/appbase --username lty --password ltywh123 --fields-terminated-b

2017-08-04 11:36:36 1726

原创 kafka单机搭建和测试

在虚拟机192.168.2.200上搭建kafka单机版1.下载,上传,解压 2.首先安装jdk   java环境,配置环境变量  vi /etc/hosts3.安装zookeeper,因为kafka连接依赖于zookeeper编辑zoo.cfg        clientPort=2181initLimit=10autopurge.purgeInterval=24

2017-08-01 19:16:01 245

转载 Spark里几个重要的概念及术语

学习Spark,有几个重要的术语需要弄清楚。1. Application用户在spark上构建的程序,包含了driver程序以及集群上的executors.2. Driver Program运行main函数并且创建SparkContext的程序。客户端的应用程序,Driver Program类似于Hadoop的wordcount程序的main函数。

2017-06-14 08:58:02 266

原创 高吞吐量分布式系统kafka

apache  kafka高吞吐量分布式系统1.核心概念broker     消息代理   kafka运行的一个程序(或者理解为一台服务器)topic         主题    log-tpicn     magic-topic Partition   分区   假设设置分区数为8,这8个分区会分别分布在不同的服务器上Factor       复制因子数Produ

2017-06-11 14:22:48 336

原创 spark

下载地址spark.apache.org安装复制一台单独的虚拟机,名c修改其ip,192.168.56.200修改其hostname为c,hostnamectl set-hostname c修改/etc/hosts加入对本机的解析重启网络服务 systemctl restart network上传spark安装文件到root目录解压spark到/usr/local下,将其名

2017-05-30 13:39:56 286

原创 hive数据挖掘

1.下载hive2.上传3.解压到usr/local目录下,并修改解压后的目录名为hive,设定环境变量HADOOP_HOME,HIVE_HOME,将bin目录加入path中4.修改hive的配置文件  1.cp hive-default.xml.template hive-site.xml  2.修改hive.metastore.schema.verification,设定为

2017-05-30 08:58:16 618

原创 zookeeper安装

1. 下载2. 上传3. 解压4. scp -r 拷贝到三台机器5. 配置:a) cp zoo_sample.cfg zoo.cfgi. server.n = xxx:2888:3888b)进入datadie目录下,修改  myid n6.启动zookeeper  ./bin/zKserver.sh starta) 观察运行状态:bin/zkServer

2017-05-30 01:59:52 236

原创 yarn安装与测试

1,配置计算调度系统yarn和计算引擎Map/Redece2. namenode配置mapred-site.xmlproperty>    name>mapreduce.framework.namename>    value>yarnvalue>property>3.节点配置yarn-site.xmlproperty>    n

2017-05-29 08:51:06 4129

原创 java编写hdfs程序

1.hdfs系统会把用到的数据存储在core-site.xml中由hadoop.tmp.dir指定,而这个值默认位于/tmp/hadoop-${user.name}下面, 由于/tmp目录在系统重启时候会被删除,所以应该修改目录位置。 修改core-site.xml(在所有站点上都修改)    hadoop.tmp.dir    /var/hadoop2.第一次启动时要讲n

2017-05-29 08:33:38 355

转载 Hadoop测试

启动集群在master上启动hadoop-daemon.sh start namenode在slave上启动hadoop-daemon.sh start datanode用jps指令观察执行结果用hdfs dfsadmin -report观察集群配置情况hadoop fs -rm /filename通过http://192.168.56.100:50070/web界面观察集群运行情况用ha

2017-05-23 23:13:26 234

转载 Hadoop安装

预备知识本文假设你已经对虚拟机软件、Linux等有初步的了解,如果你不了解这方面的内容,请首先学习马士兵Linux教程下载软件下载VirtualBox http://download.virtualbox.org/virtualbox/5.1.18/VirtualBox-5.1.18-114002-Win.exe下载CentOS http://isoredirect.cento

2017-05-23 23:09:04 175

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除