2019年03月_3分钟秒懂大数据

09月 08月 07月 06月 05月 04月 03月 02月 01月

原创数据结构——栈，队列

1.栈与队列　栈与队列是程序设计中广泛使用的两种重要的线性数据结构。　　栈是LIFO（Last In First Out），先存进去的数据只能最后被取出来，进出顺序逆序，即先进后出，后进先出。队列是FIFO（First In First Out）,它保持进出顺序一致，即先进先出，后进后出。代码实现：package com.lyz.dataStructu...

2019-03-29 15:29:53 288

原创数据结构-数组

使用数组进行练习，涉及增删改查，按下标查询，按二分法进行查询package com.lyz.dataStructure.array;/** *@Author:759057893@qq.com Lyz *@Date: 2019/3/28 15:01 *@Description: **//*数据结构第一节数组 */public class ArrayDemo { ...

2019-03-28 17:53:57 130

原创腾讯实习生笔试题

1、构造回文package com.lyz.dataStructure.niuke;import java.util.Scanner;/** *@Author:759057893@qq.com Lyz *@Date: 2019/4/2 22:07 *@Description: **//*解题思路：（1）把字符串旋转形成另外一个字符串，称为旋转字符串；（2...

2019-03-27 10:38:15 1171

原创 Zookeeper原理及安装教程

1.Zookeeper概念简介：Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务） Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 虽然说可以提供各种服务，但是zo...

2019-03-26 17:32:08 827

原创 Linux中硬链接和软连接

1>首先什么是链接？链接操作实际上是给系统中已有的某个文件指定另外一个可用于访问它的名称。对于这个新的文件名，我们可以为之指定不同的访问权限，以控制对信息的共享和安全性的问题。如果链接指向目录，用户就可以利用该链接直接进入被链接的目录而不用打一大堆的路径名。而且，即使我们删除这个链接，也不会破坏原来的目录。2>硬链接硬链接只能引用同一文件系统中的文...

2019-03-26 10:13:01 186

原创用java实现八大排序算法

八大排序一、直接插入排序插入排序由于操作不尽相同, 可分为直接插入排序,折半插入排序(又称二分插入排序),链表插入排序,希尔排序。我们先来看下直接插入排序。1、基本思想直接插入排序的基本思想是：将数组中的所有元素依次跟前面已经排好的元素相比较，如果选择的元素比已排序的元素小，则交换，直到全部元素都比较过为止。2、算...

2019-03-25 19:53:44 347

原创 HBase简介及安装

1.hbase简介1.1什么是hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。 HBASE是Google...

2019-03-24 16:28:30 261

原创 sqoop数据迁移(大数据学习23)

1.概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。Sqoop的原理其实就是将导入导出命令转化为mapreduce程序来执行，sqoop在接收到命令后，都要生成mapreduce程序使用sqoop的代码生成工具可以方便查看到sqoop所生成的java代码，并可在此基础之上进行深入定制开发导入数据：MySQL，Oracle导入数据到Hadoo...

2019-03-20 15:57:14 468

原创 azkaban工作流调度系统(大数据学习22)

2. 工作流调度器azkaban2.1 概述2.1.1为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数...

2019-03-19 17:12:35 1999 2

原创数据仓库简介

1.什么是数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。2.数据仓库的特点1．数据仓库的数据是面向主题的与传统数据库面向应用进行数据...

2019-03-19 09:47:28 479

原创 Flume日志采集框架(大数据学习21)

1.Flume介绍 1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求，通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适...

2019-03-18 17:10:30 382

原创 Hive内置运算函数，自定义函数(UDF)和Transform(大数据学习20)

当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF(UDF:user defined function).自定义函数类别UDF 作用于单个数据行，产生一个数据行作为输出。（数学函数，字符串函数）UDAF（用户定义聚集函数）：接收多个输入数据行，并产生一个输出数据行。（count，max）UDF开发实例:客户需求：现有一个json...

2019-03-18 12:55:20 517

原创 Hive 分桶介绍(大数据学习19)

1、order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。2、sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。3、distribute by(字段)根据指...

2019-03-17 21:47:25 275

原创 Hive SQL总结(大数据学习18)

一. HIVE启动的两种方式：1 直接启动 2 Hive thrift服务1 Hive 直接启动：找寻你所安装的hive文件下的hive驱动我的驱动是在apps/apache-hive-1.2.1-bin/hive 下执行驱动就可以将hive启动起来[hadoop@mini1 ~]$ cd apps/apache-hive-1.2.1-bin/[hadoop@mini...

2019-03-17 12:58:39 30014

原创使用本地Navicat连接虚拟机上的数据库

Mysql与服务器连接信息：Mysql与服务器连接信息：1）常规 —— 连接名：随便起主机名：本地 localhost 用户名：root 密码：本地数据库的密码2） SSH 主机名：连接linux中虚拟机的IP地址用户名：root 密码：虚拟机中设置的hive的密码上述两个设置...

2019-03-16 21:27:13 3663

原创 Hive原理及安装(大数据学习17)

1.Hive基本概念 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。1.1.为什么使用Hive 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大使用Hive操作接口采用类SQL语法，提供快速开发的能力。避免了去写Ma...

2019-03-16 16:09:30 764

转载自：微信公众号【程序员江湖】 https://blog.csdn.net/a724888/article/details/86097525我写过一个Java工程师学习指南，我把它分为了四个部分，第一步是打好Java基础，掌握Java核心技术，第二步是掌握Java Web技术栈，能够做一些项目，第三步是掌握Java方面的进阶技术，包括网络编程、并发编程、JVM等，第四步是掌握后端进阶技术，比...

2019-03-13 20:23:03 805

原创使用MapReduce对日志进行清洗(大数据学习16)

1需求：对web访问日志中的各字段识别切分去除日志中不合法的记录根据KPI统计需求，生成各类访问请求过滤数据2、实现代码：包结构：a) 定义一个bean，用来记录日志数据中的各数据字段package com.lyz.bigdata.mr.weblogwash;/** *@Author:759057893@qq.com Lyz *@Date: 2019/3/1...

2019-03-13 15:28:31 2559

原创 Hadoop 解除 NameNode is in safe mode(大数据学习3)

safemode模式NameNode在启动的时候首先进入安全模式，如果datanode丢失的block达到一定的比例（1-dfs.safemode.threshold.pct），则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct（缺省值0.999f）表示HDFS启动的时候，如果DataNode上报的block个数达到了元数据记录的block个数的0....

2019-03-12 11:51:04 431

原创 MapReduce程序运行在yarn集群流程分析(大数据学习15)

文字叙述流程1.将自己的mapReduce程序打成jar,在提交资源时（job.submit）,首先会与YarnRunner建立通信，通过代理方式向ResourceManager申请提交一个application2.ResourceManager返回application，id资源提交路径和当前申请application 拼接成一个唯一的完整资源提交路径3.提交job运行所需要的...

2019-03-11 15:53:58 361

原创 Yarn工作原理(大数据学习14)

YARN是一个集群资源的管理与任务调度的分布式框架Yarn的组件架构： Yarn 架构图Yarn 架构图运行流程客户端提交应用程序给ResourceManager ResouceManager会生成ApplicationMaster,并在某一个节点...

2019-03-11 15:44:05 501

原创 Partitioner使用流量统计(大数据学习13)

需求：统计流量且按照手机号的归属地，将结果数据输出到不同的省份文件中该程序和流浪统计(3)很相似，唯一不同的是在其中增加了partitioner的使用首先在介绍partitioner之前，我们先了解一下为啥要使用它？我们知道在执行map任务的时候,会将key/value写入内存或者磁盘。这个时候我们在往内存写数据的时候，会根据key创建分区。问题一：为什么要创建分区?我们如...

2019-03-10 15:03:56 277

原创 MapReduce实践—流量统计(大数据学习12)

FlowCount示例编写需求：在一堆给定的文本文件中统计出每个用户的上行流量和下行流量使用IDEA编写代码：定义三个类分别为：FlowCount，FlowCountMapper，FlowCountReducerpackage com.lyz.bigdata.mr.flowsun;import org.apache.hadoop.conf.Configuration;...

2019-03-04 17:29:53 972 2

flink-cep未发生算子设计方案

2022-05-09

kernel-headers-3.10.0-957.el7.x86_64.zip

centos7安装NVIDIA-Linux-x86_64-465.31.run时会报错，缺少内核源代码，需要安装这个插件

2021-09-03

Home_Credit_new_0.7849_246008_495.pmml

训练的模型

2021-08-05

Ray技术分享总结以及核心技术点讲解

2021-07-06

大数据组件和人工智能总结.zip

大数据组件和人工智能总结

2021-07-05

ray Forward 2021 ppt

关于2021年6月25日 Ray Forward 发布的一些内容

2021-06-28

cifar100(20个任务)测试结果

2021-05-27

cifar100-imagenet

包含mini版imagenet数据集和cifar100数据集，真实有效

2021-05-26

使用pyspark将csv文件转为parquet文件

使用spark将csv文件转为parquet文件

2021-04-28

flink-sql-connector-kafka_2.11-1.12.0.jar

flink-sql-connector-kafka_2.11-1.12.0

2021-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

逆流而上Mr李