写给自己看-CSDN博客

转载 RDD和DataFram转换

一：RDD与DataFrame转换 1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的，例如Person，而Person有name,id等，而record是不知道这些的，但是变成DataFrame背后一定知道，通过反射的方式就可以了解到背后这些元数据，进而转换成DataFrame。如何反射？ Scala: 通过case class映射，在case

2017-11-16 16:51:40 385

原创 idea使用常见问题

1 编译通过，运行不成功，提示找不到类解决: 将idea关闭，在项目根目录下打开cmd,执行 mvn idea:clean (清除生成的文件) 再执行mvn idea:idea (idea重新生成文件) 打开idea,选中一个目录，执行最后重新运行

2017-11-16 10:12:23 443

原创 storm和kafka整合案例

package lantaiyuan.rtscheduling.topology;import java.net.InetSocketAddress;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;im

2017-10-01 11:05:04 674

原创 flume实现从kafka读取消息到hive

这里以公司三台服务器为例 192.168.2.250(master) 192.168.2.251;192.168.2.252参考博客 http://miximixi.me/index.php/archives/9611.安装 kafka,flume,hive,zookeeper2. 在master(192.168.2.250)主机下 vi flume/con

2017-08-14 15:21:03 1310

原创 sqoop实现mysql到hive数据库的导入导出

使用sqoop直接执行导入导出写法从mysql导入到hivesqoop import -Dorg.apache.sqoop.splitter.allow_text_splitter=true --connect jdbc:mysql://10.20.30.105/appbase --username lty --password ltywh123 --fields-terminated-b

2017-08-04 11:36:36 1726

原创 kafka单机搭建和测试

在虚拟机192.168.2.200上搭建kafka单机版1.下载，上传，解压 2.首先安装jdk java环境，配置环境变量 vi /etc/hosts3.安装zookeeper,因为kafka连接依赖于zookeeper编辑zoo.cfg clientPort=2181initLimit=10autopurge.purgeInterval=24

2017-08-01 19:16:01 245

转载 Spark里几个重要的概念及术语

学习Spark，有几个重要的术语需要弄清楚。1. Application用户在spark上构建的程序，包含了driver程序以及集群上的executors.2. Driver Program运行main函数并且创建SparkContext的程序。客户端的应用程序，Driver Program类似于Hadoop的wordcount程序的main函数。

2017-06-14 08:58:02 266

原创高吞吐量分布式系统kafka

apache kafka高吞吐量分布式系统1.核心概念broker 消息代理 kafka运行的一个程序(或者理解为一台服务器)topic 主题 log-tpicn magic-topic Partition 分区假设设置分区数为8，这8个分区会分别分布在不同的服务器上Factor 复制因子数Produ

2017-06-11 14:22:48 336

原创 spark

下载地址spark.apache.org安装复制一台单独的虚拟机，名c修改其ip，192.168.56.200修改其hostname为c，hostnamectl set-hostname c修改/etc/hosts加入对本机的解析重启网络服务 systemctl restart network上传spark安装文件到root目录解压spark到/usr/local下，将其名

2017-05-30 13:39:56 286

原创 hive数据挖掘

1.下载hive2.上传3.解压到usr/local目录下，并修改解压后的目录名为hive,设定环境变量HADOOP_HOME,HIVE_HOME，将bin目录加入path中4.修改hive的配置文件 1.cp hive-default.xml.template hive-site.xml 2.修改hive.metastore.schema.verification，设定为

2017-05-30 08:58:16 618

原创 zookeeper安装

1. 下载2. 上传3. 解压4. scp -r 拷贝到三台机器5. 配置：a) cp zoo_sample.cfg zoo.cfgi. server.n = xxx:2888:3888b)进入datadie目录下，修改 myid n6.启动zookeeper ./bin/zKserver.sh starta) 观察运行状态：bin/zkServer

2017-05-30 01:59:52 236

原创 yarn安装与测试

1，配置计算调度系统yarn和计算引擎Map/Redece2. namenode配置mapred-site.xmlproperty> name>mapreduce.framework.namename> value>yarnvalue>property>3.节点配置yarn-site.xmlproperty> n

2017-05-29 08:51:06 4129

原创 java编写hdfs程序

1.hdfs系统会把用到的数据存储在core-site.xml中由hadoop.tmp.dir指定，而这个值默认位于/tmp/hadoop-${user.name}下面，由于/tmp目录在系统重启时候会被删除，所以应该修改目录位置。修改core-site.xml(在所有站点上都修改) hadoop.tmp.dir /var/hadoop2.第一次启动时要讲n

2017-05-29 08:33:38 355

转载 Hadoop测试

启动集群在master上启动hadoop-daemon.sh start namenode在slave上启动hadoop-daemon.sh start datanode用jps指令观察执行结果用hdfs dfsadmin -report观察集群配置情况hadoop fs -rm /filename通过http://192.168.56.100:50070/web界面观察集群运行情况用ha

2017-05-23 23:13:26 234

转载 Hadoop安装

预备知识本文假设你已经对虚拟机软件、Linux等有初步的了解，如果你不了解这方面的内容，请首先学习马士兵Linux教程下载软件下载VirtualBox http://download.virtualbox.org/virtualbox/5.1.18/VirtualBox-5.1.18-114002-Win.exe下载CentOS http://isoredirect.cento

2017-05-23 23:09:04 175

m0_37996943的博客