![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习日志
小于狙击手
这个作者很懒,什么都没留下…
展开
-
D06 Hadoop集群搭建
hadoop的服务器集群的搭建一、各服务器的jdk安装,环境变量配置.source /etc/profile二、安装hadoop,上传,解压.配置五个文件:hadoop-env.sh; core-site.xml; hdfs-site.xml; mapred-site.xml; yarn-site.xml。三、添加hadoop的环境变量.并且source原创 2017-08-25 08:39:18 · 294 阅读 · 0 评论 -
D21 flume/kafka/storm/redis综合
需求:①日志生成:采集订单系统应用打印的日志文件日志文件使用log4j生成,滚动生成 处理流程: 1、Spout获取外部数据源,数据源是订单的mq,mq有固定的格式,比如json串。2、对订单mq进行解析,得到一个对象->JavaBean订单编号、订单时间、支付编号、支付时间、商品编号、商家名称、商品价格、优惠价格、支付金额3、对指标进行计数原创 2017-08-26 13:03:28 · 241 阅读 · 0 评论 -
D24 推荐系统DSP介绍
DSP广告概述:举个例子就明白了。 Nike 公司想在网上打广告推出自己的一款新鞋子,目标客户是20岁左右的男性大学生。推广过程包含4个方面:1. 确认推广渠道: 确定男大学生喜欢上的网页 比如:新浪体育,人人网,还有一些小型的论坛。2. 确认目标客户属性:男性20岁大学生3. 制作推广材料:广告banner4. 购买广告位置对于新浪体育而言,他家网页有很多原创 2017-08-26 13:04:02 · 524 阅读 · 0 评论 -
D25 Scala基础
spark的start-all.sh启动命令 与hadoop的start-all.sh冲突,现在重命名。勿忘!①spark来进行wordcountsc.textFile("/home/hadoop/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect②spark来进行wordcoun原创 2017-08-26 13:05:37 · 219 阅读 · 0 评论 -
D26 Scala增强
Scala重点语法整理①定义函数def functionName ([list of parameters]):[return type]={ function body{} return[expr]}示例def fun1(a:String,b:Int):Unit={ println("nima") }②函数传入方法原创 2017-08-26 13:06:57 · 211 阅读 · 0 评论 -
D27 Akka实现,及自定义RPC
一、Akka的Actor概述目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所有Hadoop的RPC显得有些笨重。Spark 的RPC是通过Akka类库实现的,Akka用Scala语言开发,基于Actor并发模型原创 2017-08-26 13:07:38 · 342 阅读 · 0 评论 -
D28 Spark基础
一、Spark概述 Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的考虑,当一些查询翻译到MapReduce任务原创 2017-08-26 13:09:03 · 205 阅读 · 0 评论 -
D29 RDD高级算子
关于aggregate的算法图解备注:解决打开Maven工程后,找不到scalac的情况,记得hello-spark.iml保留小写与artifactId相同ArtifactID就是项目的唯一的标识符,实际对应项目的名称,就是项目根目录的名称。server:4040查看job的记录,包括在spark-shell中完成的算子。关于RDD高级算子原创 2017-08-26 13:09:48 · 384 阅读 · 0 评论 -
D30 Scala自定义排序和stage分区
A:自定义排序方法一import OrderContext._ val rdd2 = rdd1.sortBy(x => Girl(x._2, x._3), false) //自定义排序的规则 println(rdd2.collect().toBuffer) sc.stop()case class Girl(val faceValue: Int, val age原创 2017-08-30 16:11:53 · 268 阅读 · 0 评论 -
D32 SparkStreaming
一、SparkStreaming概述 Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:ma原创 2017-08-30 16:16:09 · 208 阅读 · 0 评论 -
D35 Spark源代码(待补充)
一、spark任务的执行流程: 二、spark-1.3.1的源代码解读(spark-core_2.10:1.3.1)2.10是Scala的版本,1.3.1是Spark的版本spark启动流程sbin/start-all.sh -> start-master.sh -> start-slaves.shsbin/start-master.sh -> 先读取原创 2017-08-30 16:17:15 · 188 阅读 · 0 评论 -
D20 Kafka及其常用命令
一、Kafka客户端常用命令:启动nohup bin/kafka-server-start.sh config/server.properties &停止bin/kafka-server-stop.sh 创建kafka topicbin/kafka-topics.sh --zookeeper server:2181 --create --topic aaa --pa原创 2017-08-26 13:01:21 · 318 阅读 · 0 评论 -
D19 Storm增强
一、一个Storm集群的基本组件storm的集群表面上看和hadoop的集群非常像。一个关键的区别是: 一个MapReduce Job最终会结束, 而一个Topology运永远运行(除非你显式的杀掉他)。在Storm的集群里面有两种节点: 控制节点(master node)和工作节点(worker node)。控制节点上面运行一个后台程序:Nimbus, 它的作用类似H原创 2017-08-25 17:56:37 · 206 阅读 · 0 评论 -
D18 storm原理与编程规范
一、关于流式计算:①离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度②流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实原创 2017-08-25 17:50:39 · 230 阅读 · 0 评论 -
D02 Linux基础
前两天主要是熟悉linux环境,最重要的是一定会必须会的命令行语句!熟悉使用linux系统等。第二天熟悉linux学习内容:①安装软件jdk+mysql。②传输文件到linux。③防火墙的关闭。④shell编程语法。⑤高并发网站架构理论。一、安装软件jdk如何传输文件到mini服务器①使用filezilla,图形化工具②sftp工具:al原创 2017-08-25 08:37:21 · 220 阅读 · 0 评论 -
D07 hdfs读写机制及其checkpoint机制
一、hdfs写数据流程总结:即向hdfs上传文件将源文件取128M做成一个block。具体实现步骤 :①client:向namenode请求上传文件; namenode:返回响应,可以上传;②client:rpc请求上传第一个block,请返回datanode;namenode:返回dn1,dn3,dn4;原创 2017-08-25 15:06:58 · 2717 阅读 · 1 评论 -
D08 MapReduce编程思想
一、mapreduce的编程思想:简述:MapReduce是分布式运算程序的编程框架是用户开发“基于hadoop的数据分析应用的和新框架”。MR的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。引入MR框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理。(每一次map,red原创 2017-08-25 15:18:01 · 554 阅读 · 0 评论 -
D09 MapReduce程序运行过程原理
一、MapReduce框架原理:①mapper开始运行,调用InputFormat组件读取文件逻辑切片(逻辑切片不是block块,切片大小默认和block块大小相同) ②经过inputformat组件处理后,文件以的形式进入我们自定义的mapper逻辑③mapper逻辑中输出结果会调用OutPutCollector组件写入环形缓冲区。④当环形缓冲区的存储原创 2017-08-25 15:22:07 · 207 阅读 · 0 评论 -
D10 MapRedecu程序案例思路汇总
需求“对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果:1363157985066 1372623050300-FD-07-A4-72-B8:CMCC 120.196.100.82 2427248124681 2001363157995052 138265441015C-0E-8B-C7-F1-E0:CMCC 120.197.40.4原创 2017-08-25 15:24:32 · 315 阅读 · 0 评论 -
D11 HA集群搭建,以及Hive基础
一、扩展原来的集群:克隆机器后,主要完成修改主机名;修改ip地址;修改hosts映射关系;关闭服务器;ssh免密登陆;由于是克隆所以简单软件安装和配置环境变量都不用做。只需要,修改:主机名,IP地址,hosts关系,ssh免密登陆主机名:hostnamectl set-hostname minix; 后可用hostname命令查看IP地址:vi /etc/sysconfig/ne原创 2017-08-25 15:25:07 · 289 阅读 · 0 评论 -
D12 Hive基础及Flume
一、HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。可以将sql语句转换为MapReduce任务进行运行。Ø 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大 Ø 为什么要使用Hive操作接口采用类SQL语法,提供快速开发的能力。原创 2017-08-25 15:26:03 · 204 阅读 · 0 评论 -
D13 辅助系统汇总flume/azkaban/sqoop
概述:Hadoop家族的辅助系统,依然是基于mapreduce的云计算框架。只是更简单的来执行!三种辅助系统的特点和用处如下:①flume:Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume是一个分布式、可靠和高可用的海量日志采集、原创 2017-08-25 17:35:33 · 585 阅读 · 0 评论 -
D01 linux基础及其虚拟机下网络模式
第一天linux基础学习内容:一、VMware虚拟机下安装centOS的linux系统,并且配置参数。二、linux操作系统简介。三、网络技术详解。第一节 linux系统安装网络和共享中心-->查看虚拟网卡VMware8(启用),1(关闭)。则VMware安装成功。如果出现virtual xt,需要进入bios开启虚拟加速开关。创建centOS虚拟机原创 2017-08-25 08:34:13 · 280 阅读 · 0 评论 -
D16 HBase数据模型/命令行/存储机制
一、Hbase的数据模型 分析Hbase的数据格式:之前讲过小米的云盘就是基于Hbase,与hive和mysql不同就是在于可以增删改查,更加方便,因此更适用于小米云盘的用户数据的增删改查。下面是Hbase的数据格式,只有明确了数据格式才会对其数据进行操作。在Hbase中真实存储物理逻辑表格如下:原创 2017-08-25 17:46:46 · 253 阅读 · 0 评论 -
D37 python基础
python-2.7.13 print ----区别: python3以上的print()一、python基础语法测试:数据类型,list,tuple,dict,set1# coding=utf-823#-----A-----简单数据类型测试4count = 35原创 2017-08-30 16:18:38 · 199 阅读 · 0 评论