【无标题】 课堂回顾:kafka概念介绍: 吞吐量:单位时间内处理的数据量。讲求的是单位时间内处理的数据量要大 Zookeeper是什么: 概念说明:zk是分布式环境下的第三方协同服务,帮助分布式系统,比如存储、计算、调度等均需要协同服务 特点特征:简单、易使用、高效、稳定 应用场景:核心是要解决一致性问题 分布式环境下的命名一致性问题 分布式服务环境下的高可用性问题 HA问题:high available 核心还是一个选举策略问题 代码
2021-11-11总结 一、集合collection1. 概念说明- 该集合与java中的集合类似,只是scala重新实现了自身的集合抽象- 分为可变集合和不可变集合- 常用集合列表 | **序号** | **集合类** | **说明** | | -------- | -------------------- | ---------------------------------------...
Scala基础篇 1、基础语法 基本概念 对象:类的一个具体实例,对象包含属性和方法,如旺财有属性毛色和看家本领能力 类:类是对象的抽象,对象是类的一个实例 方法:描述类所拥有的行为能力,一个类可以拥有多个方法。 属性:也称字段,即每个对象拥有它自身实例变量集合,通过复制来创建真正的属性值。 基本语法 区分大小写 ...
Scala初识 1、Scala介绍 作者 联邦理工学院(EPFL)的Martin Odersky,之前曾从事工作是Generic Java 和javac(Sun Java编译器),并于2001年开始设计Scala。 语言介绍 多范式(multi-paradigm)的编程语言,设计初衷是要继承面向对象和函数编程的各种特性。 运行在Java虚拟机上,并兼容现有的java程序 ...
Spark初识 1.Spark的背景、定义、特点 背景 MapReduce框架局限性 仅支持Map和Reduce两种操作,提供给用户的只有这两种操作 编程复杂度略高,学习和使用成本略高 处理效率较低 Map中间结果写磁盘,Reduce写HDFS,多个MR之间通...
微博舆情热点挖掘项目——A+项目 做项目基本流程 1.梳理数据流程 2.解决关键性问题 3.串联整个流程过程即标准化以及正式上线解决关键性问题 对比差异点 数据的文件组织形式不同 数据的格式不同 相同点 数据流程一样 数据目标也是一样曝光 Exposure广告领域专业术语...
开发细节和风险控制 一、开发细节与风险控制 开发细节当中及伴随着各种各样的风险,并要及时反馈和处理风险,如果工作量评估、即使难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分1.开发细节 共九个开发模块1.1.确定源数据文件集合 步骤拆分 来源渠道 自从写网络爬虫采集:研发成本高、不是本职工作 公开数据集:五研发成本,公...
已采集微博数据ETL项目 中小型数据仓库项目的标准开发流程 以数据流来驱动项目开发 以已下载微博数据ETL项目为例 1、基于定的微博数据目录,拿到该目录下所有的输入数据的文件路径。(技术问题done) 2、基于文件路径,读取文本文件的数据。 3、解析读取出来的文件数据,成为结构化数据-微博博文对象抽象类-ContentPojo,最终获取对应的对象集合。(技术问题done) 4、解析读取出来的文件数据,成为结构化数据-用户对象抽象类-UserPojo, 最终获取对应的对象集合。(技术问题do..
已采集微博数据ETL项目 已采集微博数据ETL项目 常见的数据格式 Txt,文本行 Html,网页,超文本标记语言 Xml:是html的超集,就是一种自定义标记标签型格式。 pom.xml <tag>….</tag> Json Key:value 也可以key:value的数组 中小型数据仓库项目的标准开发流程 以数据流来驱动项目开发 以已下载微博数据ETL项目为例 1、基于定的微博数据目录,拿到该目录下所
hive从入门到实战No.5 sql当中主要关键字的执行顺序问题 select ,where,group by , order by, from优先级问题 1)select < from 2) select < where 3) select < group by 4) select > order by 结论 ...
hive从入门到实战No.4 维度建模缺点 hive企业应用一、数据仓库架构设计数据仓库的主要工作就是ETL,即是英文Extract-Transform-Load的缩写,用来描述数据从来源端经过装载(load)、抽取(extract)、转换(transform)至目的端的过程.数据仓库构架设计,即为公司针对自身业务场景实现的水平分层、垂直分主题的数据仓库构建过程的顶层设计.1.数据构架 构架原则:先水平分层,在垂直分主题域 数据架构分三层: ...
hive从入门到实战No.3 UDAF(user defined aggregation function)自定义udaf函数self_count,实现系统udaf count的功能in:out=n:1,即输入N条数据,返回一条处理结果,即列转行。 最常见的系统聚合函数,如count,sum,avg,max等实现步骤自定义一个java类 继承UDAF类 内部定义一个静态类,实现UDAFEvaluator接口 实现方法init,iterate,terminatePartial,merge,terminate共5个方法.
hive从入门到实战No.2 DML 动态分区模式(让分区成为被查询出来的结果表的字段名称变量) 脚本模板INSERT OVERWRITE TABLE tablename PARTITION (col_name) select_statement FROM from_statement 设置非严格模式set hive.exec.dynamic.partition.mode=nonstric;将查询结果写入hdf...
hive从入门到实战No.1 Hive架构设计原理一. Hive基本使用直接输入hive回车,进入hive cli常用命令使用 查看数据库:show databases; 创建数据库:create database tianliangedu; 选择数据库:use tianliangedu; 查看某个数据库下的所有表:show tables; ...
hadoop git总结 版本控制系统 什么是vcs Version control system的简称,是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统 Vcs的发展 本地vcs 手工即可 集中式VCS Cvs,svn 分布式VCS Git,bitkeeper,Mercurial Git工作原理 Git是什么 开源的分布式版本控制系统 ,去中心化. 大小项目均可以灵活管理,参与开发人员比较灵活. Linux的
2021-08-22 EL:最原始的JSP 在html页面中嵌入<% java语句 %> 但是 权限太大,功能太强 ,不符合MVC模式的理念 因为MVC应该较轻量级,较简单才对以MVC模式设计程序,JSP只是视图,视图的任务就是显示响应,而不是在JSP中做任何关于程序控制和业务逻辑的事情。所以在JSP页面中应该尽可能少的、或者是完全不出现Java代码在JSP中访问模型对象是通过EL表达式的语法来表达。所有EL表达式的格式都是以“${}”表示。用于替换和简化jsp页面中java代码的编写语法${表
2021年8月19日学习笔记 EL:最原始的JSP 在html页面中嵌入<% java语句 %> 但是 权限太大,功能太强 ,不符合MVC模式的理念 因为MVC应该较轻量级,较简单才对以MVC模式设计程序,JSP只是视图,视图的任务就是显示响应,而不是在JSP中做任何关于程序控制和业务逻辑的事情。所以在JSP页面中应该尽可能少的、或者是完全不出现Java代码在JSP中访问模型对象是通过EL表达式的语法来表达。所有EL表达式的格式都是以“${}”表示。用于替换和简化jsp页面中java代码的编写语法$
2021-08-18 什么是Servlet采用JAVA语言编写的服务器端程序,运行在web服务器中的servlet容器中,主要功能是提供请求\响应的web服务模式,生成动态web内容。servlet的优点:1.较好的可移植性,无需修改代码就可以部署在多种不同类型的web服务器上。2.执行效率高,Servlet针对每个请求创建一个线程执行,有更短的响应时间。3.功能强大,可以与web服务器进行交互4.使用方便5.可扩展性强servlet生命周期可以分为加载、创建、初始化、处理客户请求、卸载1.加载:容器通过类加载
2021年8月12日学习笔记 1.DOM事件基础文档对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口。在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM。Document Object Model的历史可以追溯至1990年代后期微软与Netscape的“浏览器大战”,双方为了在JavaScript与JScript一决生死,于是大规模的赋予浏览器强大的功能。微软在网页技术上加入了不少专属事物,既有VBScript、Ac
2021-08-10学习笔记(Javascript初识、Js的流程控制) 1.JavaScript是什么JavaScript的历史Netscape(网景)在最初将其脚本语言命名为LiveScript,是布兰登.艾克发明的。后来Netscape在与Sun合作之后将其改名为JavaScript。JavaScript最初受Java启发而开始设计的,目的之一就是“看上去像Java”,因此语法上有类似之处,一些名称和命名规范也借自Java。JavaScript与Java名称上的近似,是当时Netscape为了营销考虑与Sun微系统达成协议的结果。Java和JavaS...