大数据技术学习
文章平均质量分 76
离线分析 & 实时分析 & 交互分析 & 机器学习
字母的艺术
make it happen !
展开
-
本地文件上传到 HDFS 的shell执行脚本
目录1.功能:将本地日志上传到hdfs中。 2.实现:分两步进行,第一步将文件复制到待上传目录,第二步将文件设置标志(copy)循环逐条复制hdfs中,并更改标志(done) 3.代码及结果展示1.功能:将本地日志上传到hdfs中。2.实现:分两步进行,第一步将文件复制到待上传目录, 第二步将文件设置标志(copy)循环逐条复制hdfs中,并更改标志(done)3.代...原创 2019-03-19 10:16:48 · 6426 阅读 · 1 评论 -
sparkSQL 将结果数据写入 mysql【demo 程序篇 WriteDataToMysql】
Demo 测试代码 WriteDataToMysql package cn.demo.sqlimport java.util.Propertiesimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}i...原创 2019-03-01 12:47:44 · 651 阅读 · 0 评论 -
sparkSQL 从MySQL数据源 读取数据【demo 程序篇 ReadDataFromMysql】
demo 程序篇package cn.demo.sqlimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}object ReadDataFromMysql { def main(args: Array[String]): Unit = { // 设...原创 2019-03-01 11:39:29 · 619 阅读 · 0 评论 -
spark shell 启动报找不到 com.mysql.jdbc.Driver was not found
问题spark shell 启动报找不到 com.mysql.jdbc.Driver was not found解决1./apache-hive-1.2.1-bin/lib/目录中添加 mysql-connector-java-5.1.35-bin.jar2. 转到spark 目录中 启动spark-shell/bin/spark-shell --master s...原创 2019-02-28 21:44:18 · 2716 阅读 · 0 评论 -
分析 Spark 程序 helloWord 过程中产生多少 RDD ?
目录问题:分析 Spark 程序 helloWord 过程中产生多少 个RDD ? 答案:六个问题待分析spark 程序 wordCount val res = sc.textFile("hdfs://node-1:9000/wordCount").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFil...原创 2019-02-27 10:43:51 · 142 阅读 · 0 评论 -
在scala中 int 中没有 to 方法,而实际中可以调用该方法,原因何在?(源码分析)
1. 问题:在scala中 int 中没有 to 方法,而实际中可以调用该方法,原因何在?2. 源码:在scala中 Int 隐式转换为 RichInt3. 分析如下: scala 包下有个一个predef 门面类,该类中包含了scala中提供所有的隐式转换,并且默认导入该类。源码查看如下:predef 类 继承 LowPriorityImplicits, 该类使用了...原创 2019-02-23 11:29:28 · 676 阅读 · 0 评论 -
Spark on YARN 的 Cluster 模式和Client 模式原理分析及区别对比分析
目录1. Cluster 模式原理分析 2. Client 模式原理分析 3. 两种模式区别分析1. Cluster 模式原理分析客户端提交给ResourceManager的每一个job都会在集群的NodeManager节点上分配一个唯一的ApplicationMaster,由该ApplicationMaster管理全生命周期的应用,Spark Driver首先作为一个Appli...原创 2019-02-18 11:00:40 · 1369 阅读 · 0 评论 -
解决 bash: nc: command not found 和 nc: Protocol not available 问题
目录:1.问题 2.方案1.问题 解决 bash: nc: command not found 和 nc: Protocol not available 问题2.方案步骤如下:yum erase nc wget http://vault.centos.org/6.6/os/x86_64/Packages/nc-1.84-22.el6.x86_64.rpm rpm ...原创 2019-01-28 00:14:13 · 1146 阅读 · 1 评论 -
spark-sql 中不能使用hive创建表,报/user/hive/warehouse is not a directory or unable to create one错误
目录1.问题 :/user/hive/warehouse is not a directory or unable to create one错误 2.方案:修改spark 配置文件1.问题spark-sql 中不能使用hive创建表,报/user/hive/warehouse is not a directory or unable to create one 错误2.方案...原创 2019-01-27 19:15:17 · 4175 阅读 · 0 评论 -
spark 版 WordCount 程序分析
目录1、开发环境 idea+maven+spark 2、程序代码 3、集群提交1、开发环境 idea+maven+spark使用idea,创建maven工程,使用scala 编写程序,打包jar并运行在集群中2、程序代码package cn.learn.sparkimport org.apache.spark.{SparkConf, SparkContext}obj...原创 2019-01-20 22:21:09 · 305 阅读 · 0 评论 -
Scala 2.10.X 的 actor 与Java 多线程对比,及使用 actor 多线程完成wordcount 思路及实例代码
目录1.scala 中处理多线程解决方案 2.scala 与 java 在多线程对比 3.scala actor 多线程完成 wordcount 程序1.scala 中处理多线程解决方案scala 2.10.x 之前使用 actor;scala 2.11 之后使用 akka;Scala中的Actor能够实现并行编程的强大功能,它是基于事件模型的并发机制;Scala是运用消...原创 2019-01-17 11:24:09 · 512 阅读 · 0 评论 -
scala版 wordcount 程序整体分析及分步分析
目录1.待处理数据 2.scala版 wordcount 程序之整体分析 3.scala版 wordcount 程序之分部分析1. 待处理数据lines = List("hello tom hello jerry", "hello jerry", "hello kitty")2.scala版 wordcount 程序之整体分析处理程序val result = lines....原创 2019-01-15 21:03:58 · 229 阅读 · 0 评论 -
推荐系统基础知识
目录1、定义 2、分类 3、常用推荐算法 4、应用场景 5、实现步骤1、定义为了解决信息过载、用户无明确需求的问题,找到用户感兴趣的物品,才有了个性化推荐系统。2、分类按照目标用户划分:基于大众行为推荐,基于个性化推荐;按照数据源划分:基于人口统计学推荐,基于内容推荐,基于协同过滤推荐;按照推荐模型划分:基于关联规则推荐,基于机器学习模型推荐。3、常用推荐算法...原创 2019-01-13 21:11:25 · 513 阅读 · 0 评论 -
大数据 big data 相关技术框架整理 ING...
目录整体框架 big data 部分框架 redis 部分框架 scala 部分框架 hdfs1、整体框架 big data 2、部分框架之 redis3. 部分框架 scala4. 部分框架 hdfs原创 2019-01-06 09:15:54 · 582 阅读 · 0 评论 -
kafka 中相关组件topic、broker、producer、consumer原理及负载均衡策略
目录1.kafka 2.topic 3.broker 4.producer 5.consumergroup 6.负载均衡策略1.kafkakafka是类jms消息队列,与jms不同的是,kafka可以有多个消费者consumer主动拉取数据。2.topictopic是逻辑上:一个目标发送目的地,物理上:一个磁盘上的partition的目录。一个topic可以对应多个...原创 2018-12-31 21:16:26 · 6496 阅读 · 0 评论 -
解决安装Kafka 非root用户不能正常启动的问题
目录1. 问题:安装kafka,使用root正常启动,但是非root不能启动,提示信息:java.io.FileNotFoundException: /export/servers/logs/kafka/.lock (权限不够) 2. 方案:修改提示信息权限chmod1. 问题:安装kafka,使用root正常启动,但是非root不能启动,提示信息:java.io.FileNotFound...原创 2018-12-30 16:33:34 · 5143 阅读 · 2 评论 -
大数据技术相关启动命令汇总ING...
目录启动命令1. hadoop 2. zookeeper 3. hive 4. hbase 5. storm 6. kafka1.hadoop启动命令格式化HDFS $ hdfs namenode -format $ hdfs namenode -format –clusterID itcast ###clusterID必须与bi的相同 ferderati...原创 2018-12-30 16:00:24 · 252 阅读 · 0 评论 -
hadoop 之 storm (编程模型、并发度、架构模型)
目录1、编程模型 2、并发度 3、架构模型1、编程模型 DataSource:外部数据源; Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt; Bolt: 接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理,发送给下一个Bolt或者是存储到某种介质上,介质可...原创 2018-12-25 10:23:17 · 287 阅读 · 0 评论 -
hadoop 之 hbase 原理 (hmaster, hregionserver, zookeeper, 读写流程及组件职责)
目录1、体系图 2、写流程 3、flush过程 4、合并过程 5、读过程 6、hmaster职责 7、hregionserver职责 8、client职责 1、体系图2、写流程client向hregionserver发送写请求。 hregionserver将数据写到hlog(write ahead log),为了数据的持久化和恢复。 hregionserve...原创 2018-12-23 19:29:01 · 1537 阅读 · 1 评论 -
搭建三节点的 Hbase 环境及动态添加主从节点
目录试验环境 hadoop-2.6.4 + zookeeper-3.4.5 + hbase-0.99.2 搭建过程 hbase-0.99.2 动态添加主节点、从节点1、试验环境1.1 节点为三个:192.168.2.181 hbase1 (主节点) 192.168.2.182 hbase2 (从节点) 192.168.2.183 hbase3 (...原创 2018-12-20 11:32:43 · 2041 阅读 · 0 评论 -
MR中自定义bean作为key,输出某组排序中最大值。
目录需求:MR中自定义bean作为key,输出某组排序中最大值。 方案:重写MR中groupingcomparator方法1.需求:MR中自定义bean作为key,输出某组排序中最大值。 场景:求出多个订单中,金额最大的商品价格。2.方案:重写MR中 groupingcomparator 方法 定义排序:orderBean 类,重写compareto方法,订单相同...原创 2018-12-13 11:51:52 · 558 阅读 · 1 评论 -
关键路径转换分析---漏斗模型
目录需求 方案 总结1.需求 在一条指定的业务流程中,各个步骤的完成人数及相对上一个步骤的百分比。2.方案: 使用漏斗模型 查询每一个步骤的总访问人数 create table dw_route_numbs as select 'step1' as step,count(distinct remote_addr) as num...原创 2018-12-12 15:02:24 · 774 阅读 · 0 评论 -
解决 Hadoop 中 从节点 不能远程登录 主节点的MySQL数据库.
目录:Host 'shizhan04' is not allowed to connect to this MySQL server问题,及解决方案 Access denied for user 'root'@'localhost' (using password: YES) 问题,及解决方案1.问题: "Host 'shizhan04' is not allowed to conne...原创 2018-12-09 17:15:58 · 752 阅读 · 0 评论 -
数据迁移工具 sqoop 安装部署及实战
目录概述 工作机制 安装部署 实战1.概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库。2.工作机制 将导入或导出命令翻译成mapreduce程序来实现,在...原创 2018-12-09 10:38:03 · 246 阅读 · 0 评论 -
工作流调度器 azkaban 安装部署
目录准备工作 安装 azkaban web服务器安装 azkaban executor 安装 配置SSL 配置文件 启动 备注 1.准备工作Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL目前azkab...原创 2018-12-08 21:10:39 · 250 阅读 · 0 评论 -
hadoop 之 flume 日志采集框架
目录概述 运行机制 简单结构 复杂结构1、概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可实现。Flume针对特殊场景也具备良好的自定义扩展能力,...转载 2018-12-06 08:59:15 · 286 阅读 · 0 评论 -
Hive 中 各种Join 操作及实例
目录:数据 建表 操作正文:1、数据a:+-------+---------+--+| a.id | a.name |+-------+---------+--+| 1 | a || 2 | b || 3 | c || 4 | d || 7 | y || 8 ...原创 2018-12-03 22:00:20 · 527 阅读 · 0 评论 -
Hadoop 之 HDFS原理
HDFS原理概述HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode) NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上 每一个文件块可以有多个副本,并存放在不同的datanode上 Datanode会定...原创 2018-11-20 23:24:55 · 148 阅读 · 0 评论 -
Hadoop 之 MapReduce
MapReduce 过程细节分析1/ map阶段结果<key, value>传递给reduce阶段时, 默认是按照key中ASCII 排序的,若key 被构造成bean,则需要制定bean的compareTo方法,此时bean对应的class需要实现writableComparable接口。 2/ reduce阶段,将map阶段结果<key, value>进行...原创 2018-11-24 23:06:44 · 101 阅读 · 0 评论 -
hadoop 环境搭建之SSH免登密码登陆
目录: ssh 免登操作原理 ssh 免登操作步骤ssh 免登操作原理:1/ A 使用ssh 生成 公钥和私钥,之后A请求登陆 B,2/ B 查看自己的授权列表authorized_keys, 是否含有A的公钥3/ B 用A的公钥随机加密一个字符串,并将该字符串发送给A 4/ A 接收加密的字符串,并用自己的私钥解密5/ A 将解密结果发送给 B...原创 2018-11-13 14:46:33 · 141 阅读 · 0 评论 -
MapReduce 程序的几种提交运行模式
目录 本地模式运行 集群模式运行 本地模型运行1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdata)...原创 2018-11-08 21:55:05 · 236 阅读 · 0 评论