自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 【无标题】

课堂回顾:kafka概念介绍: 吞吐量:单位时间内处理的数据量。讲求的是单位时间内处理的数据量要大 Zookeeper是什么: 概念说明:zk是分布式环境下的第三方协同服务,帮助分布式系统,比如存储、计算、调度等均需要协同服务 特点特征:简单、易使用、高效、稳定 应用场景:核心是要解决一致性问题 分布式环境下的命名一致性问题 分布式服务环境下的高可用性问题 HA问题:high available 核心还是一个选举策略问题 代码

2021-11-16 22:59:57 279

原创 2021-11-11总结

一、集合collection1. 概念说明- 该集合与java中的集合类似,只是scala重新实现了自身的集合抽象- 分为可变集合和不可变集合- 常用集合列表 | **序号** | **集合类** | **说明** | | -------- | -------------------- | ---------------------------------------...

2021-11-11 00:01:47 256

原创 Scala基础篇

1、基础语法 基本概念 对象:类的一个具体实例,对象包含属性和方法,如旺财有属性毛色和看家本领能力 类:类是对象的抽象,对象是类的一个实例 方法:描述类所拥有的行为能力,一个类可以拥有多个方法。 属性:也称字段,即每个对象拥有它自身实例变量集合,通过复制来创建真正的属性值。 基本语法 区分大小写 ...

2021-11-09 23:24:22 558 1

原创 Scala初识

1、Scala介绍 作者 联邦理工学院(EPFL)的Martin Odersky,之前曾从事工作是Generic Java 和javac(Sun Java编译器),并于2001年开始设计Scala。 语言介绍 多范式(multi-paradigm)的编程语言,设计初衷是要继承面向对象和函数编程的各种特性。 运行在Java虚拟机上,并兼容现有的java程序 ...

2021-11-09 15:24:33 256

原创 Spark初识

1.Spark的背景、定义、特点 背景 MapReduce框架局限性 仅支持Map和Reduce两种操作,提供给用户的只有这两种操作 编程复杂度略高,学习和使用成本略高 处理效率较低 Map中间结果写磁盘,Reduce写HDFS,多个MR之间通...

2021-11-08 22:49:04 2061

原创 微博舆情热点挖掘项目——A+项目

做项目基本流程 1.梳理数据流程 2.解决关键性问题 3.串联整个流程过程即标准化以及正式上线解决关键性问题 对比差异点 数据的文件组织形式不同 数据的格式不同 相同点 数据流程一样 数据目标也是一样曝光 Exposure广告领域专业术语...

2021-11-08 21:53:28 309

原创 开发细节和风险控制

一、开发细节与风险控制 开发细节当中及伴随着各种各样的风险,并要及时反馈和处理风险,如果工作量评估、即使难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分1.开发细节 共九个开发模块1.1.确定源数据文件集合 步骤拆分 来源渠道 自从写网络爬虫采集:研发成本高、不是本职工作 公开数据集:五研发成本,公...

2021-11-03 22:10:43 1238

原创 已采集微博数据ETL项目

中小型数据仓库项目的标准开发流程 以数据流来驱动项目开发 以已下载微博数据ETL项目为例 1、基于定的微博数据目录,拿到该目录下所有的输入数据的文件路径。(技术问题done) 2、基于文件路径,读取文本文件的数据。 3、解析读取出来的文件数据,成为结构化数据-微博博文对象抽象类-ContentPojo,最终获取对应的对象集合。(技术问题done) 4、解析读取出来的文件数据,成为结构化数据-用户对象抽象类-UserPojo, 最终获取对应的对象集合。(技术问题do..

2021-11-01 22:03:31 215

原创 已采集微博数据ETL项目

已采集微博数据ETL项目 常见的数据格式 Txt,文本行 Html,网页,超文本标记语言 Xml:是html的超集,就是一种自定义标记标签型格式。 pom.xml <tag>….</tag> Json Key:value 也可以key:value的数组 中小型数据仓库项目的标准开发流程 以数据流来驱动项目开发 以已下载微博数据ETL项目为例 1、基于定的微博数据目录,拿到该目录下所

2021-10-30 22:23:23 262

原创 hive从入门到实战No.5

sql当中主要关键字的执行顺序问题 select ,where,group by , order by, from优先级问题 1)select < from 2) select < where 3) select < group by 4) select > order by 结论 ...

2021-10-29 20:34:34 1024

原创 hive从入门到实战No.4

维度建模缺点 hive企业应用一、数据仓库架构设计数据仓库的主要工作就是ETL,即是英文Extract-Transform-Load的缩写,用来描述数据从来源端经过装载(load)、抽取(extract)、转换(transform)至目的端的过程.数据仓库构架设计,即为公司针对自身业务场景实现的水平分层、垂直分主题的数据仓库构建过程的顶层设计.1.数据构架 构架原则:先水平分层,在垂直分主题域 数据架构分三层: ...

2021-10-28 23:07:25 454

原创 hive从入门到实战No.3

UDAF(user defined aggregation function)自定义udaf函数self_count,实现系统udaf count的功能in:out=n:1,即输入N条数据,返回一条处理结果,即列转行。 最常见的系统聚合函数,如count,sum,avg,max等实现步骤自定义一个java类 继承UDAF类 内部定义一个静态类,实现UDAFEvaluator接口 实现方法init,iterate,terminatePartial,merge,terminate共5个方法.

2021-10-27 22:33:15 744

原创 hive从入门到实战No.2

DML 动态分区模式(让分区成为被查询出来的结果表的字段名称变量) 脚本模板INSERT OVERWRITE TABLE tablename PARTITION (col_name) select_statement FROM from_statement 设置非严格模式set hive.exec.dynamic.partition.mode=nonstric;将查询结果写入hdf...

2021-10-26 22:46:57 238

原创 hive从入门到实战No.1

Hive架构设计原理一. Hive基本使用直接输入hive回车,进入hive cli常用命令使用 查看数据库:show databases; 创建数据库:create database tianliangedu; 选择数据库:use tianliangedu; 查看某个数据库下的所有表:show tables; ...

2021-10-25 21:49:13 460

原创 hadoop git总结

版本控制系统 什么是vcs Version control system的简称,是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统 Vcs的发展 本地vcs 手工即可 集中式VCS Cvs,svn 分布式VCS Git,bitkeeper,Mercurial Git工作原理 Git是什么 开源的分布式版本控制系统 ,去中心化. 大小项目均可以灵活管理,参与开发人员比较灵活. Linux的

2021-10-22 22:22:11 455 2

原创 2021-08-22

EL:最原始的JSP 在html页面中嵌入<% java语句 %> 但是 权限太大,功能太强 ,不符合MVC模式的理念 因为MVC应该较轻量级,较简单才对以MVC模式设计程序,JSP只是视图,视图的任务就是显示响应,而不是在JSP中做任何关于程序控制和业务逻辑的事情。所以在JSP页面中应该尽可能少的、或者是完全不出现Java代码在JSP中访问模型对象是通过EL表达式的语法来表达。所有EL表达式的格式都是以“${}”表示。用于替换和简化jsp页面中java代码的编写语法${表

2021-08-22 22:45:00 193

原创 2021年8月19日学习笔记

EL:最原始的JSP 在html页面中嵌入<% java语句 %> 但是 权限太大,功能太强 ,不符合MVC模式的理念 因为MVC应该较轻量级,较简单才对以MVC模式设计程序,JSP只是视图,视图的任务就是显示响应,而不是在JSP中做任何关于程序控制和业务逻辑的事情。所以在JSP页面中应该尽可能少的、或者是完全不出现Java代码在JSP中访问模型对象是通过EL表达式的语法来表达。所有EL表达式的格式都是以“${}”表示。用于替换和简化jsp页面中java代码的编写语法$

2021-08-19 21:28:46 229

原创 2021-08-18

什么是Servlet采用JAVA语言编写的服务器端程序,运行在web服务器中的servlet容器中,主要功能是提供请求\响应的web服务模式,生成动态web内容。servlet的优点:1.较好的可移植性,无需修改代码就可以部署在多种不同类型的web服务器上。2.执行效率高,Servlet针对每个请求创建一个线程执行,有更短的响应时间。3.功能强大,可以与web服务器进行交互4.使用方便5.可扩展性强servlet生命周期可以分为加载、创建、初始化、处理客户请求、卸载1.加载:容器通过类加载

2021-08-18 23:01:06 187

原创 2021年8月12日学习笔记

1.DOM事件基础文档对象模型(Document Object Model,简称DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口。在网页上,组织页面(或文档)的对象被组织在一个树形结构中,用来表示文档中对象的标准模型就称为DOM。Document Object Model的历史可以追溯至1990年代后期微软与Netscape的“浏览器大战”,双方为了在JavaScript与JScript一决生死,于是大规模的赋予浏览器强大的功能。微软在网页技术上加入了不少专属事物,既有VBScript、Ac

2021-08-12 22:31:17 241

原创 2021-08-10学习笔记(Javascript初识、Js的流程控制)

1.JavaScript是什么JavaScript的历史Netscape(网景)在最初将其脚本语言命名为LiveScript,是布兰登.艾克发明的。后来Netscape在与Sun合作之后将其改名为JavaScript。JavaScript最初受Java启发而开始设计的,目的之一就是“看上去像Java”,因此语法上有类似之处,一些名称和命名规范也借自Java。JavaScript与Java名称上的近似,是当时Netscape为了营销考虑与Sun微系统达成协议的结果。Java和JavaS...

2021-08-10 20:26:53 363

原创 2021年8月6日学习笔记

1.CSS初识CSS的出现,拯救了混乱的HTML,当让更加拯救了我们web开发者。 让我们的网页更加丰富多彩。CSS的最大贡献就是: 让 HTML 从样式中解脱苦海, 实现了 HTML 专注去做 结构呈现。CSS(Cascading Style Sheets) 主要用于美化样式。CSS通常称为CSS样式表或层叠样式表(级联样式表),主要用于设置HTML页面中的文本内容(字体、大小、对齐方式等)、图片的外形(宽高、边框样式、边距等)以及版面的布局等外观显示样式。CSS以HTML为基础,提供了丰

2021-08-08 14:32:09 282

原创 2021-08-05

1.表单 action : 要把数据提交到哪里去 method : 提交的方式,get/post get : get请求方式,明文传输,相对不安全,传递数据较少,效率高 post : post请求方式,不是明文传输,相对安全,传递数据较多,效率低向服务器索要数据,使用get 向服务器发送数据,使用postname和value 用于数据提交的时候传递数据 nam...

2021-08-05 18:58:38 308

原创 2021-08-04今日学习笔记(html初识)

1.html常用前端编辑器:vscode2.浏览器:浏览器是网页显示、运行的平台,常用的浏览器有IE、火狐(Firefox)、谷歌(Chrome)、Safari和Opera等。我们平时称为五大浏览器3.web标准构成web标准不是某一个标准,而是由W3C(万维网)和其他标准化组织制定的一系列标准的集合。主要包括结构(Structure)、表现(Presentation)和行为(Behavior)三个方面。结构标准:结构用于对网页元素进行整理和分类,咱们主要学的是HTML。 表现标准:

2021-08-04 20:13:09 203

原创 今日学习笔记

简单DDL:DDL : Data Definition Language 数据库定义语言涉及的关键字 : create drop alter昨天我们讲了表的创建和删除,可以规定表名是什么,可以有多少列,数据类型分别是什么,那么比如创建错了,想更改,就要涉及到一个关键字 alter比如更改表名alter table 表名 rename 新表名;如 alter table teacher rename t_teacher;更改字段名alter table 表名 chang

2021-07-29 22:43:02 74

原创 今日学习笔记

1.数据:在javaSE中,我们说过这样一句话,数据要运算,必须先存储,那么java中存储数据是使用变量,那么计算机怎么存储?文件java中变量存储的数据,可以跨平台,因为JVM跨平台,那么计算机存储的数据呢?不会跨平台而数据库就可以解决操作系统之间的跨平台2.数据库数据库顾名思义,就是遵循一定数据格式的数据集合,可以认为它是对文件系统的改进,它解决了不同操作系统之间,数据格式的兼容问题.也就是说,只要是同一个数据库的数据文件,即使是从Windows迁移到Linux上,也可以正常处理3.

2021-07-28 20:10:00 108

原创 今日学习笔记

1.多线程程序(program)是为完成特定任务、用某种语言编写的一组指令的集合。即指一 段静态的代码,静态对象。进程(process)是程序的一次执行过程,或是正在运行的一个程序。是一个动态的过程:有它自身的产生、存在和消亡的过程。——生命周期如:运行中的QQ,运行中的MP3播放器程序是静态的,进程是动态的进程作为资源分配的单位,系统在运行时会为每个进程分配不同的内存区域线程(thread),进程可进一步细化为线程,是一个程序内部的一条执行路径。若一个进程同一时间并行执行多

2021-07-23 13:10:34 155 2

原创 2021-07-21

今天是来到天亮的第23天,今天主要学习了IO流,多线程。IO流主要讲了昨日练习题1.用IO流复制文件:public class DaiMa2 {public static void main(String[] args) { try ( FileInputStream fis=new FileInputStream("C:\\a.zip"); BufferedInputStream bis = new BufferedInputS...

2021-07-21 21:03:09 89

原创 今日学习笔记

1.Map常用方法2.hashMap3Properties4.TreeMap5.泛型使用自定义类型

2021-07-18 16:50:08 93

原创 今日学习笔记

1.Set和排序2.TreeSet使用3.4.二叉查找树类似于二分法查找,查询效率比较高左叶子 用于小于根节点的值右叶子 永远大于根节点的值这种方式是二分查找的思想,查询所需要的最大次数,等同于二叉树的高度在添加数据的时候,也是类似的方式,一层层找,一直找到适合新节点的位置但是二叉查找树也有问题比如 一直添加比根节点小的或者大的数据这样的话,虽然符合二叉查找树特性,但是性能大打折扣,几乎变成了线性的5.红黑树...

2021-07-16 21:19:24 87

原创 今日学习笔记

1.集合概念2继承体系由以上两图我们可以看出Java集合类有清晰的继承关系,有很多子接口和实现类。但是,并不是所有子接口或实现类都是最常用的。下面我们列举出最常用的几个子接口和实现类:Collection ——> List ——> ArrayList类Collection ——> List ——> LinkedList类Collection ——> Set ——> HashSet类Collection ——> Set ——&g

2021-07-15 21:22:00 81

原创 今日学习笔记

一些常用的API1.Stringjava.lang.String是字符串类他的底层就是一个字符数组所以它有很多特性都是数组的特性 1.字符串一旦创建,这个字符串对象不能更改 2.字符串需要使用""双引号表示 3.为了提高字符串访问效率,提出了一个缓存机制,字符串常量池基本使用://尽管没有new,但是s1依然代表String的对象因为字符串常量池String s1 = "abc";//s1没有使用final修饰,所以s1 ...

2021-07-13 21:57:08 104

原创 今日学习笔记

1.内部类 类体中还有一个类的声明.当一个事物内部还有一部分需要一个完整的结构进行描述,这个内部的完整结构一般只是为了让外部类使用而内部类还有一个作用,可以访问外部的私有化属性2.内部类分为:成员内部类/普通内部类,静态内部类,局部内部类和匿名内部类3.成员内部类可以等同看作成员变量类体重不需要使用static修饰可以使用权限控制修饰符成员内部类中,不能有静态声明成员内部类中可以直接访问外部类的所有属性4.静态内部类等同看作静态变量,可以使用权限控制修饰符,静态...

2021-07-12 20:25:20 78

原创 day14总结

object方法:object类是所有类的根类,他的方法是所有类都有得。object xxx =new xxx()也是多态。具体方法:equals()== 比较基本类型的时候 比较的是值的大小,但是比较引用类型的时候 比较的是内存地址 而当我们需要比较两个对象的时候,往往是根据对象的属性的值进行比较,而不比较他们是不是同一个对象,因为这样没有任何价值于是 Object 中提供了一个equals方法,专门用于比较两个对象是否相同,是否为同一个对象。看一下Object对象的equals方法.

2021-07-08 20:57:38 74

原创 day13总结

1.软件设计六大原则1 单一职责原则原则思想 : 一个方法只做一件事,一个类只负责一个职责,这样当前职责改动,不会对其他程序产生影响常识原则,几乎所有程序员都会遵循这个原则优点 : 降低类和类之间的耦合度,提高可读性,可维护性,可扩展性,降低可变性的风险2 里氏替换原则原则思想 : 能使用父类的地方,就一定可以使用子类子类还可以扩展父类的功能,但是不能更改父类的功能,并且子类还可以有自己特有的功能优点 : 增加了程序的健...

2021-07-08 11:38:01 106

原创 day12总结

1.extends继承 1 继承是从已有类中,派生出新的类,新的类拥有父类的属性和行为,并且还能扩展新的属性和行为 2 java中只支持单继承,不支持多继承,这样可以让java中的继承关系比较简单 一个类只能有一个父类,但是一个父类可以有很多子类,易于维护和管理 为了解决单继承功能变弱问题,java提出了接口,一个类可以实现多个接口 3 继承是可以传递的,比如A继承B , B...

2021-07-06 22:25:38 137

原创 天亮教育day11总结

1.this:是每个对象中保存自身内存地址的一个引用类型变量 this就表示这个对象自己,相当于“我”2.this能做什么: 1.用在成员方法和构造方法中 区分同名的局部变量和成员变量 语法this.xxx=xxx; 2.用在某个构造方法中,用于重载调用当前类中其他的构造方法,提高代码的重用性 语法this(参数);必须在构造方法第一行 3.return this;...

2021-07-05 21:32:10 215

原创 天亮教育day10总结

1.面向对象面向过程 侧重分步骤 : 类似于公司扁平化管理比如做饭 :1 买菜,买食材2 开火烧油3 翻炒4 出锅....面向对象 侧重分模块 : 类似于公司的层级化管理分析 完成做菜这件事需要涉及到的事物 : 厨师,食材,工具2.优点比如要下五子棋面向过程的设计思维是这样的 :1 开始游戏2 黑子先走3 绘制画面...

2021-07-04 15:42:01 283 3

原创 天亮教育day07总结

1.数组传值 : 指的是 基本数据类型的传递传引用 : 指的是 引用类型的传递,引用类型保存地址,只能传递地址2.数组复制(1)替换式复制(2)插入式复制3.二维数组二维数组使用 静态 : int[][] arr = { {1,2,3}, {2,5},.... }动态 : int[][] a...

2021-06-29 19:49:12 112

原创 天亮教育day06总结

1.数据结构2.数组的概述引用数据类型 : 类 , 数组 , 接口之前我们的变量都是保存单个数据,而数组是为了保存多个数据数组 在java中是一种数据结构,另外还有一个专门操作数组的类 java.util.Arrays不止在java中,任何语言中数组都是一个最基本的数据结构3.数组的特性数组在内存空间中是连续的,另外数组是一个引用类型,也就意味着,最终数据保存在堆内存中数组还有一个...

2021-06-28 19:03:35 137

原创 天亮教育day05总结

1.程序 : 一堆代码的集合,是个可执行文件,但是是一个静态概念,一般保存在硬盘中** 进程 : 就是正在执行的可执行文件,是个动态概念,会按照程序的设计,在内存中一步步执行* 运行起来的程序,指的是载入到内存中的可执行文件,这个时候操作系统就会开启一个进程来运行这个内存中的文件对象* 如果我们想关闭某个软件,可以直接结束这个进程即可** java的内存划分和管理* * Java Runtime Da...

2021-06-25 16:35:05 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除