- 博客(22)
- 收藏
- 关注
原创 flume kafka storm
flume:分布式的日志收集系统。作用就是监控数据三个组件:agent=source+channel+sinksource:数据源 各种数据源。channel:在sink组件确保数据准确无误的送到目的地之后,暂时存在channel中的数据就会被清除,目的是为了保证数据的安全性。sink:下沉 把数据发送到某一个地方去 可以送到任何地方去。组件之间的数据传递方式:整体来说是通过flow(数据流)的形式传递数据。内部是通过很多个event传递数据。event是flume数据传递的最小单
2020-09-20 11:23:15 209
原创 Spark 环境搭建 RDD 算子 持久化 并行度 宽窄依赖 DAG的任务切割 运行及执行原理 共享变量 sparkSQL
离线分析对于一段时间的数据,进行收集,整理,分析,得出一定的结论这个结论会帮助人们做出一定的决策。不要求时限性。批处理方式在线(实时)分析必须要求时限性,在最短时间之内对输入的数据进行响应流处理方式spark对于大规模数据处理的快如闪电的统一的分析引擎作者:美国加州大学伯克利分校AMP(算法,机器,人)实验室目的:通过对算法,机器和人的大规模整合,展现大数据的应用特点:速度比MR快100X,即使使用磁盘快10X以上(理论值)快的原因:a.基于内存b.DAG..
2020-09-20 11:20:58 585
原创 scala 环境搭建 变量 值 数据类型 元组 表达式块 语句 函数 柯里化 集合 面向对象 隐式转换
scala(scalable的简写)scala是一个比较冷门的语言,不太被人们所知道为什么这么冷门的语言现在被我们使用很多的大数据的项目的源码是是用scala语言编写的。因为大数据技术不断被人们使用,所以scala也逐步被认知scala是一个基于JVM,多范式的一种类似于java的编程语言基于JVM:运行在java平台之上,并且有自己的scala解释器。多范式:范式:代表着一种规范c 面向过程的编程范式java 面向对象的编程范式scala 面向对象的编程范式 函数式编程范
2020-09-07 07:59:13 281 1
原创 hive&hbase知识点整合
hivehive是什么?基于hadoop的数据仓库通过类sql语句转换成MapReduce执行数据库与数据仓库的区别DDL关于数据库和表结构的操作create drop alter showDML关于表内数据的操作insert select几种数据的导入导出方式1.insert intotable values(…)2.load data[local] inpath “” [overwrite] into table tbName3.insertinto/overwrit
2020-08-26 16:49:13 179
原创 hbase 表结构 环境搭建 hbase的操作 过滤器 hbase与hive的整合 hbase的rowkey设计原则
hbasehbase 是一款开源的,分布式的,版本化的,非关系型(NoSql)数据库NoSql = not only sqlhive是数据仓库,但是使用的是类sql语句hbase是数据库,但是不用sql语句特点:1.存储量大2.数据稀疏3.速度快:数据量比较大的情况下,不是特别慢。4.数据无类型(单一类型)应用场景:1.适合做海量数据的存和取2.如果数据量不超过千万级别,不建议使用hbase。3.hbase不适合做细腻的数据分析 wherehbase的表结构表(table):
2020-08-26 16:37:26 296
原创 hive 常用命令 DDL DML 验证数据 加载数据 内部表和外部表 分区 分桶 数据类型 表连接 排序 函数 jdbc
hive:基于hadoop的数据仓库数据库:真正存储和管理数据的,对数据有直接的处置权。关心的事情是在线事务过程(OLTP)数据仓库:可以通过一个或多个数据库读取数据做一些数据分析关心的事情是在线分析过程(OLAP)举例:数据库操作:下订单,待发货,已发货,待评价,。。。数据仓库操作:通过数据分析出销量,年龄段,性别,。。。hive为什么是基于hadoop的?1.logo的头是hadoop的头(勉强算一个理由)2.hive是存在与hadoop生态圈中的一个组件3.hive本身
2020-08-20 13:45:48 317
原创 XML可扩展的标记语言 CDATA标记 XML的解析 SAX解析 使用JDOM的解析 DOM4J
XML:可扩展的标记语言HTML:超文本标记语言xml与HTML的区别比较的内容 HTML XML可扩展性 不具备扩展性 具备扩展性侧重点 侧重于显示信息 侧重于描述信息语法要求 不要求标记的嵌套 严格要求嵌套、配对 不要求标记的配对 遵循一定的结构顺序的 不要求标记
2020-08-16 12:55:10 306
原创 Web简介 HTTP协议 Web容器 Tomcat的安装与使用 JSP的基础的语法 scriptlet标签
Web:一种分布式的应用架构,共享分布在网络上的各个Web服务器中的所有的互相连接的信息。Web采用的是客户端与服务器模式,采用HTTP协议进行通信。Web具备以下的3点特征:1.用HTML来表达信息,以及建立信息与信息的连接。2.用统一资源定位技术URL来实现网络上的信息的精确的定位。3.用网络应用层协议HTTP来规范浏览器与服务器之间的通信过程。URL:Uniform Resource Locator的缩写。表示统一资源定位器,它是一种专门为表示网络上的资源而设定的一种编址方式。
2020-08-10 18:17:48 244
原创 大数据介绍 Hadoop 伪分布式 完全分布式 HDFS MapReduce yarn zookeeper
大数据数据:字母 数字 声音 影像等都是数据数据没有任何含义,仅代表一个符号。数据是信息的载体。信息:数据经过解释加工之后,赋予一定的含义。信息量:消除人们对不确定因素的大小大:1 数据量大基于非常非常大量的数据,甚至是海量数据才能给我们带来一定的价值。价值是从这些数据中挖掘出来的。2.大数据的技术在海量数据的基础上,必须产生能处理这么大数据量的技术。大数据:大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强
2020-08-10 16:57:32 1032
原创 循环语句习题
输出一百遍“我能行!”int i =1; while (i <= 100) { System.out.println("第" + i + "遍, I Can "); i++;}int b = 1; do {System.out.println("第"+ b + "遍, I Can ");b++;}while (b <= 100);int k = 1; for (; k <= 100;) {System.out.println("第" + k + "遍,
2020-08-07 17:50:15 343
原创 java基础知识 配置环境变量 注释 关键字 标识符 变量 数据类型 运算符 流程控制语句
编程的本质: 数据结构+算法+编程语言 java基础知识 配置环境变量 注释 关键字 标识符 变量 数据类型 运算符 流程控制语句
2020-08-07 16:55:25 203
原创 idea的使用 maven的使用
IDE开发工具idea和eclipse具体开发工具关系:eclipse中 一个project就是一个单独的工程,idea中 一个project也是一个工程,这个工程相当于eclipse里的workspace、module相当于eclipse里的project。maven:内行,专家项目构建工具能帮助我们做哪些事情:1.帮助我们标准化项目结构2.帮助我们管理依赖3.帮助我们打jar包项目结构的标准化:
2020-07-15 08:54:55 169
原创 Servlet 常用的方法 生命周期 过滤器Servlet 监听器Servlet
Servlet:两个常用的方法:创建一个Servlet程序:Servlet的生命周期:过滤器Servlet:监听器Servlet:
2020-07-11 19:19:24 350
原创 Linux介绍及安装过程 常用的命令 对目录或文件的增删改查 压缩和解压缩 用户和权限 shell/shellScript linux的一些其他命令
什么是Linux?操作系统OS(Operation System):多用户:多任务:Linux与大数据的关系:Linux的特点:版本:Linux的安装:安装后创建新的虚拟机的步骤:删除虚拟机:linux的操作系统:界面版和最小安装版:远程连接工具(MobaXterm):常用命令:对目录或文件的增删改查:压缩和解压缩:用户和权限:su/sudo:shell:read:history:通配符管道符:输出重定向:shellScript:linux的一些其他命令:
2020-07-04 22:03:33 544
原创 JSP指令 JSP内置对象及其常用方法
JSP的指令: Page指令 include指令 forward指令JSP的内置对象:4种属性范围:request对象常用的方法:response对象常用的方法:Cookie类提供的常用方法:session对象常用的方法:application对象常用的方法:
2020-06-06 14:02:54 369
原创 dao: Data Access Object 数据访问对象,jdbc预编译
dao:数据库和持久层应用程序抽象出来的一个接口设计层面考虑应用程序的具体功能有哪些,如何实现,参数是什么,返回值是什么,预先设定好,再不改动。
2020-06-03 17:53:48 183
原创 JDBC(Java DataBase Connectivity)数据库连接
JDBC(Java DataBase Connectivity)数据库连接Java和数据库之间的关系:Java是面向对象的数据库是关系型数据库ORM映射思想:Object Relationship Mapping
2020-06-03 15:40:33 233
原创 数据建模 三级范式 索引
数据建模:将现实世界的数据转换成信息世界的数据的过程称为建模概念模型设计-实体关系模型实体:可以是具体的,也可以是抽象的属性:实体是由一组属性来表示的关系:关系是两个或多个实体之间的联系关系类型:一对一 一对多 多对多E-R图的符号:实体类型:长方形属性类型:椭圆形关系类型:菱形三级范式:锁:数据表:索引及其分类:创建、查询、删除索引的方式:索引的数据结构:稀疏索引和密集索引:如何优化SQL:索引不是越多越好:
2020-05-23 20:37:05 442
原创 MySQL数据库 常用命令 SQL语法组成 数据库事务 元数据 反射
数据库基础知识:数据库发展历史:常用的数据库:MySQL命令:mysqladmin命令:SQL语法组成:DDL语句:数值列类型:字符串列类型:日期和时间列类型:约束:DML语句:主表和从表:drop,truncate,delete的区别:高级查询:数据库事务:事务的四个特性:事务操作的三个语句:mysql的事务:元数据及其常用方法:java中提供了 三种获取反射对象的方式:
2020-05-23 17:12:11 290
原创 JavaScript 基础语法 数据类型 常用运算符 数组声明及方法 流程控制 字符串 自定义函数 事件
JavaScript功能:JS的注释:常用的JS函数:JS语法:变量的声明:JS的数据类型:JS里面的类型转换:JS中常用运算符:JS中一维数组的声明语法:JS的流程控制:JS自定义函数:JS事件:JS面向对象编程:
2020-05-20 20:26:33 245
原创 DIV+CSS布局基础
CSS层叠样式表作用:选择器:层叠原理样式来源:选择器的优先级(由高到低):定义样式(后定义优先原则):DIV+CSS的布局方法:页面元素的布局:
2020-05-17 13:31:54 231
原创 HTML(超文本标记语言)标签
HTML:超级文本标记语言作用:用来制作网页,可以控制网页元素的显示方式网页:HTML常用的标签: 注释标签: 段落标签: 其他标签: 表格标签: HTML中颜色三种表示方式: 超链接标签: 表单标签: 框架标签:
2020-05-16 22:10:12 505
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人