TT15751097576-CSDN博客

原创 Spark API

Spark API主要有两个抽象部件组成：Spark Context和RDD，应用程序通过这两个部件和Spark进行交互，连接到Spark集群并使用相关资源。1.Spark Context是定义在Spark库中的一个类，作为Spark库的入口，包含应用程序 main( ) 方法的Driver program通过Spark Context对象访问Spark，因为Spark Context对象表示...

2019-11-18 01:00:06 347

原创 Spark工作原理

面试：掌握Java开发熟悉HDFS/HBase/Hive/MapReduce/spark，有丰富的分布式编程经验；熟悉Spark Streaming和Spark SQL；熟悉Core Java，熟悉Java IO, NIO, 多线程编程，熟悉JVM运行机制和内存管理，网络协议；熟练掌握Linux操作系统，熟悉shell等脚本编程；有在Spark相关项目中应用Java或Python语言...

2019-11-18 00:41:38 231

原创数据湖

什么是数据湖？数据湖是一个集中式存储库，允许您以任意存储规模存储所有结构化或非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析 - 从控制面板和可视化到大数据处理，实时分析和机器学习，以指导做出更好的决策。用来将企业中现有的数据进行有效的整合，快速准确的提供报表并提出决策依据，帮助企业做出明智的业务经营决策。EDL，企业级数据湖（原始数据的保存区）。...

2019-11-12 01:41:25 291

原创 Bootstrap

Bootstrap概念：Bootstrap是Twitter退出的一个用前端开发发的开源框架，是一个做网页的框架（目前最流行的web前端框架），就是说你只需要写HTML标签就可以调用它的类，就可以快速的做一个高大上的网页（非常漂亮的样式网页）。使用：bootstrap对css样式进行了简单的封装，通过class呈现给开发者使用，是开发更为便捷，但是仍需要了解class如何被实现。容器：...

2019-11-01 11:51:56 210

原创 Hive窗口函数

窗口函数：窗口函数指的就是每一条数据的窗口 OVER（），如果over（）里面没有约束，则表示整张表的窗口（全表）。over():指定分析函数工作的数据窗口大小，这个数据窗口大小可能回随着行的变化而变化current row:当前行，UNBOUNDED PRECEDING 表示从前面的起点，UNBOUNDEDFOLLOWING 表示到后面的终点n preceding: 往前 n 行数据...

2019-10-31 00:45:51 161

原创 Hive行列式转换

Hive行转列coacat(string A/col,string B/col…):返回输入字符串连接后的结果，支持人一个输入字符串；//查询语句select concat(deptid,dname) from dept;//返回结果就是连接多个列select concat(deptid,",",dname) from dept;concat_ws(separator,str1,st...

2019-10-30 23:13:37 189

原创模板方法设计模式

Java23种设计模式（模板方法设计模式）模式的定义与特点：模板方法（Template Method）模式的定义下：定义了操作种的算法骨架，而将算法的一些步骤延迟到子类种，使得子类可以不改变算法结构的情况下重定义该该算法的某些特定步骤，它是一种类行为的模式。该模式下的主要优点如下：1.他封装了不变的部分，扩展可变的部分。他把认为是不变的部分的算法封装到父类种实现，而把不可变部分算法由子类继...

2019-10-24 23:22:10 128

原创删除kafka中的表头数据（过滤器）

删除kafka中的表头数据（过滤器）先打开kafka命令//到kafka的bin目录下[root@bigdata bin]# cd /opt/bigdata/kafka010/bin///查看kafka中的表 [root@bigdata bin]# ./kafka-topics.sh --zookeeper 127.0.0.1:2181 -list__consumer_offsets...

2019-10-22 02:04:03 512

原创 kafka stream（kafka流处理）

kafka stream（kafka流处理）问题：1）列转化问题(列转化行)user_attendees friend_id//打开zookeeper[root@bigdata bin]# zkServer.sh start//启动kafka[root@bigdata bin]# ./kafka-server-start.sh ../config/server.proper...

2019-10-22 00:11:46 593

原创 Springboot连接Python爬取网站信息

Python的requests模块的使用解决pip更新问题。 You are using pip version 19.0.3, however version 19.1 is available.当直接输入python -m pip install --upgrade pip更新还报错的时候，输入命令：python -m pip install -U pipCollecting p...

2019-10-18 01:41:42 1143

原创 Spark 连接 KafKa

Spark 连接 KafKa数据的流程与细节方向前几天把数据导入kafka中，现在要把数据从kafka中使用Scala将数据导入数据仓库；新建maven工程（基础步骤），在开百度中打开maven工程–>找到kafka的jar导入scala框架<dependency> <groupId>org.apache.kafka</groupId&g...

2019-10-16 02:07:36 452

原创 Python安装与Sublime Text3搭建Python开发环境及常用插件安装

Python安装与Sublime Text3搭建Python开发环境及常用插件安装第一步：下载Python安装包第二部：安装A）双击下载好的安装包，弹出如下界面：这里要注意的是，将Python加入到windows的环境变量中，如果忘记勾选，则需要向java一样配置环境变量。在这里我选择的是自定义安装，点击"自定义安装"惊醒下一步操作；B）进入到下一步之后，选择需要安装的组件，然...

2019-10-16 02:01:59 689 1

原创 scala伴生类与伴生对象

scala伴生类与伴生对象伴生对象快速入门的分析：object TestChildGame { def main(args: Array[String]): Unit = { /* *Scala中静态的概念--伴生对象 * Scala语言是完全面向对象的（万物皆对象）语言，所以并没有静态的操作 * （即在Scala中没有静态的概念（Java中publ...

2019-10-13 23:43:43 380

原创基于spark Graph X的图形数据分析

基于spark Graph X的图形数据分析理解Spark Graph X数据模型理解SparkGraphX API理解Spark Graph X 图算法 PageRank理解Spark Graph X Prege许多大数据以大规模图或网络的形式呈现的许多非图结构的大数据Neo4j 专门用于图形数据库列数据库是按照列来存储数据，行式数据库式按照几张表来存储...

2019-10-13 14:46:36 510

原创 Spark SQL架构

Spark SQL架构Spark技术栈（Spark生态站）：Spark SQL主要是对信息的处理，包括数据转化，数据抽取Spark周边有Python/Scala/java/MLLib/等等Spark可以集成Hive，Json，CSV，parqueet，JDBC，HBase，Other等等Catalyst优化器是Spark SQL的核心。Dataset与Frame的区别：？？？使用C...

2019-10-13 14:43:30 421

原创安装Kafka与flume联合使用

安装Kafka与flume联合使用Kafka的作用：消峰（消息队列，先进先出）scala写的消息队列，常用于日志。消息队列简单理解就是生产者把实时性不强的数据丢入队列，消费者从队列中取出并处理。比如秒杀时可以把非常多的请求写入队列，再依次取出。很多程序都需要写日志，可以先写入kafka，再依次写入数据库，可以提高主程序性能和解耦Kafka是linkedin开源的MQ系统，主要特点是基于Pu...

2019-10-10 02:20:14 426

原创双向链表二叉树

//双向链表二叉树private E unlinkFirst(Node<E> f){ //assert f == first && f != null; final E element = f.item; final Node<E> next = f.next; f.item = null;//上一个设为null f.next = null;//...

2019-10-07 20:49:39 208

原创 Spark 算子

Spark大数据计算框架Spark（火花）出现不全是代替Map Reduce，里面有批处理（Spark运行在内存中，Map Reduce运行在硬盘中，根据自身情况选择适应的开发环境（比如：机器的数量，配置，资金等等））了解Hadoop发展历史：2011年发布1.0版本，2012年发布稳定版，2013年发布2.X版本（里面出现了Yarn，得以重用）2012年版本中MR的缺点：mr基于数据集...

2019-10-07 20:18:59 452 1

原创聊大数据概括

聊大数据概括1.需求分析（业务）做各种业务的最终目标是什么？分割子目标（特征方面考虑）【建模（提取特征–> 有业务专家和算法专家来做的）】2.数仓设计应用（国内是应用，国外是数据文件（数据壶））（日志、记录等等）近源层明细层里面有几种表： 1.维度表（观察一件事情有很多个角度（维度升维）维度多的时候需要降维（维度降维）） 2.事...

2019-10-01 00:50:53 176

原创门清Scala高阶函数

门清Scala高阶函数，函数是Scala中最重要的重点把函数体看成变量工厂方法工厂变量简单工厂object MyhHello { //高阶函数最简单的工厂模式 var humber = ()=>{ //可以连接数据库，HBase，masql等等 "我是汉堡包" } var checken = ()=> "我是鸡翅膀" def ...

2019-09-30 11:18:36 231

原创 Scala语言学习

Scala语言引言：其实代码没有你想象那么难，但是如果你想不到哪里去，就会很难.学习一个技术或知识点的流程：大数据技术生态体系学习Scala的原因： 1）Spara新一代内存级大数据框架，是大数据的重要内容。 2）Spark就是使用Scala编写的，因此为了更好的学习Spark，需要掌握Scala这门语言。 3）Scala是Scalable Language的简写，是一门多...

2019-09-30 10:41:12 856

原创安装 flume

安装 flume说明：后期我们拿到大量的数据，不一定都是csv，数据库，图形文件，二进制文件，序列化文件，txt等等，比较混乱，就要在初期由预谋的把它转换成数据库文件或者其他的统一文件类型。把一个非结构化数据，主键转化成结构化数据的文件，方便我们查，分析统计等等flume就是帮助我们搜集数据，并且进行简单的数据过滤。然后自由的把数据放到你想要的地方（控制台输出，卡夫卡，jdbc数据库里面也行，...

2019-09-29 23:51:44 178

原创 Scala中的foreach 和 map 方法比较

Scala中的集合对象都有fireach和map量方法。**相同：**都属于遍历集合对象，并对每一项执行指定的方法。**相异：**foreach无返回值（准确的说返回void），map返回集合对象。下列代码中，b.getClass得到的是void,而c.getClass得到的是colletion。，foreach和map运行结果一致。结论就是：foreach无法代替map而map方法可以代...

2019-09-28 21:18:50 623

原创 Scala细节总结（一）

前言：数组过滤scala> var c = List(1,2,3,4)acala> c.filter //.filter表示过滤的意思res1: List [Int] = List(2,4)//过滤出来的结果scala> val ss = "hello world"//简单字符串scala> ss.contains//表示包含的字符串 def contain...

2019-09-28 18:00:30 222

原创详谈HBase框架图

详谈HBase框架图最底层是HDFS，HBase是基于HDFS上构建的框架。DATa Node是管理在Linux系统上的文件夹，（习惯上称作实际的存储框架就DATa Node（是Java进程），实际上是不能存储的，其实是管理数据的地方）上层是HBase，HBase还要依赖于Zoo’eKeeper，所以在启动HBase之前就要先启动ZooKeeper和Hadoop。HBase里面有一个HMa...

2019-09-21 23:27:30 236

原创 HBase的API操作---增删改查

HBase的API操作—增删改查Java包的版本一定要统一，防止出现版本问题第一步：创建maven工程第二部：进入maven官网，输入三个版本jar包通过类去找包：问题：我知道一个类名，但是不知道这是那个包的。（通过类去找包的方法）百度一下：search.maven.org 进入官网比如：HBase 在输入 Admin //2.连接客户端的类 <!-- https:...

2019-09-21 17:03:52 933

原创 Count(*), Count(1) 和Count(字段)的区别

Count(*), Count(1) 和Count(字段)的区别1. count(1) and count(*)当表的数据量大些时，对表作分析之后，使用count(1)还要比使用count()用时多！从执行计划来看，count(1)和count()的效果是一样的。但是在表做过分析之后，count(1)会比count(*)的用时少些（1w以内数据量），不过差不了多少。如果count(1...

2019-09-21 10:45:24 510

原创 2018版IDEA过期解决方案

2018版IDEA过期解决方案首先需要下载一个JetbrainsCrack-3.1-release-enc.jar，然后把JetbrainsCrack-3.1-release-enc.jar文件放置IDEA安装的bin文件夹下面，如图所示：在bin文件夹下找到idea.exe.vmoptions和idea64.exe.vmoptions分别打开上一步找到的2个文件在文件最后一行加入Jetb...

2019-09-21 10:38:27 2740

原创大数据架构之Hadoop生态圈

第一章：集群规划测试开发集群（逻辑划分）：1台管理节点理解点+1台工具节点/1台边缘节点——N太工作节点可在Cloudera Manager界面查看，端口号：71801台机器上部署管理节点，通常包括以下叫角色：NN：NameNode（HDFS）；SHS：Spark History Server（Spark）；RM：Reduce Manager（YARN）；JHS：jobHistor...

2019-09-19 20:06:32 1102

原创 Hive数据仓库踏坑（下）

Hive数据仓库踏坑（下）Hive排序（Hive分析数据用的就是Map Reduce）全局排序 Order By Order By:全局排序，全局只有一个Reduce1.使用ORDER BY子句排序 ASC（ascend）：升序（默认） DESC（descend）：降序2.ORDER BY 子句在SELECT语句的结尾 3.案列实操（1）查询员工信息...

2019-09-19 00:41:28 250

原创 Hive数据仓库踏坑（上）

Hive数据仓库了解！！！大数据解三个问题:(1)海量（PB级以上，EB，ZB，YB等）数据的传输（2）海量数据的存储（3）海量数据的计算常识：b—>B—>KB—>MB—>GB—>TB—>PB—>EB—>ZB—>YB等等Hive：由Facebook开源用于解决海量结构化日志的数据统计Hive是基于Hadoop的一个数据仓库...

2019-09-16 23:34:22 1882

原创 mapper类中四大类函数详解

mapper类中SetUp函数详解hadoop中的MapReduce框架里已经预定义了相关的接口，其中如Mapper类下的方法setup()和cleanup()。----setup()此方法被MapReduce框架仅且执行一次，在执行Map任务前，进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中，导致Mapper任务在解析每一行输入时都会进行资源初始化工作，导...

2019-09-08 18:51:48 2380

原创 MapReduce详细过程刨析

MapRduce：就是一种分布式计算框架（一定数据按行算）5个阶段：input ，map（里面由kv值，按照k值进行分区），shuffle（最难）， reduce（获取前面的v值进行分组），outputshuffle过程实现的功能**分区：**决定当前的Key交给那个reduce进行处理相同的key，必须由同一个reduce进行处理默认：根据key的has...

2019-09-07 02:04:17 208

原创 MapReduce运行原理与HDFS命令

作业一：默写读写原理1.客户端通过DistributedFile System模块向Name Node发出上传文件请求。2.Name Node会判断文件是否存在，目录是否存在，Name Node返回结果给客户端。3.客户端请求第一个块上传到哪个DATa Node上。4.NameNode 通过计算将节点返回，计算式通过距离，和负载均衡等情况。5.客户端通过FDSataOutPutStr...

2019-09-05 01:19:21 226

原创大数据端口总结

常见端口汇总：Hadoop：50070：HDFS WEB UI端口8020 ：高可用的HDFS RPC端口9000 ：非高可用的HDFS RPC端口8088 ： Yarn 的WEB UI 接口8485 ： JournalNode 的RPC端口8019 ： ZKFC端口Zookeeper:2181 ：客户端连接zookeeper的端口2888 ： zookeeper集群内通...

2019-09-05 01:12:11 163

翻译 Java 常用IO流操作详解

Java 常用IO流操作详解1.基本概念IO：Java对数据的操作是通过流的方式，IO流用来处理设备之间的数据传输，上传文件和下载文件，Java用于操作流的对象都在IO包中。2.IO流的分类3.字节流（1）.字节流基类1）.InputStreamInputStream：字节输入流基类，抽象类是表示字节输入流的所有类的超类。常用方法：// 从输入流中读取数据的下一个字节abst...

2019-09-04 17:32:53 137

原创 java移位运算符(一个大于号，两个大于号，三个大于号)

java移位运算符(一个大于号，两个大于号，三个大于号)public static void main(String[] args) { // 一个大于号是比较运算符，输出：false System.out.println("1 > 2测试:"); System.out.println(1 > 2); // 两个大于号是【有符号移位运算符】，转换成2进...

2019-09-02 10:29:51 10847

原创 java集合框架

java集合框架一、集合框架图简化图：说明：对于以上的框架图有如下几点说明1.所有集合类都位于java.util包下。Java的集合类主要由两个接口派生而出：Collection和Map，Collection和Map是Java集合框架的根接口，这两个接口又包含了一些子接口或实现类。2. 集合接口：6个接口（短虚线表示），表示不同集合类型，是集合框架的基础。3. 抽象类：5个抽象类（...

2019-09-02 10:06:13 648 1

原创 redis安装

redis安装接着上面博客的所有步骤安装适用于并发型的数据（数据量一定要大，才能看出区别）[root@minbigdata ~]# cd /opt/bigdata/spark243/sbin/[root@bigdata sbin]# cd /opt///下载[root@bigdata opt]# wget http://download.redis.io/releases/redis-...

2019-09-01 23:18:20 247

原创 spark安装

spark安装spark是内存里面的计算框架内存操作，spark无法替代mapreduce，spark提供读写流功能，在内存中，速度快。mapreduce依赖于Hadoop中，spark不是特别需要Hadoop启动的。spark安装步骤：前面大数据安装的所有软件过程要详细了解（倒背如流）先复制一台虚拟机（设置内容要同步进行）右击复制进入常规和系统修改名称路径内存处理器等，然后启动复制...

2019-09-01 03:46:38 660

空空如也

空空如也