自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

PassionZheng的博客

持续改善/不断学习

  • 博客(111)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive中bigint和string进行join出现匹配错误问题

在hive中,两个表进行join,on条件两表的字段含义一致(都是整数),但数据类型不一致:string和bigint。join后发现如果数值过大则匹配的记录会出现问题:一条记录会匹配出多条记录(explain可以发现都转换为double)如:190000000002778025,就会错误的匹配上*8023 ,*8025a)原因:Java中精度只有15至16位,当数据超过精度就会不准——也就会出现超过精度的记录join上许多不一致的记录。bigint和string比较时会隐式地都转换成double,j

2020-11-01 22:16:28 5487

原创 Scala隐式转换

隐式转换可以在不需改任何代码的情况下,扩展某个类的功能隐式函数当编译器第一次编译失败的时候,会在当前的环境中查找能让代码编译通过的方法,用于将类型进行转换,实现二次编译。案例:通过隐式转化为Int类型增加方法。class MyRichInt(val self: Int) { def myMax(i: Int): Int = { if (self < i) i else self } def myMin(i: Int): Int = {

2020-07-09 18:12:01 357

原创 大数据数仓项目总结(一)需求、技术选型、框架版本、服务器、集群规模

文章目录一.需求描述二.架构设计三.数据采集模块搭建四.一.需求描述数据仓库( Data Waehouse ) 是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本、提高产品质量等。数据仓库,并不是数据的最终目的地,而是为数据最终的目的地做好准备。这些准备包括对数据的:清洗,转义,分类,重组,合并,拆分,统计等等。一、...

2020-06-04 11:24:56 4931

原创 Hive数据操作语言DML

数据导入1.向表中装载数据(Load)hive> load data > [local] inpath '/opt/module/datas/student.txt' > [overwrite] into table default.student > [partition (partcol1=val1,…)];1)load data:表示加载数据2)local:表示从本地加载数据到hive表;否则从HDFS移动数据到hive表存储位置3)

2020-05-28 21:26:56 263

原创 Hive数据定义语言DDL

Hive的数据定义语言主要包括数据库和表的创建、修改与删除,此外表层面还有内部表与外部表、分区表等的操作。Database1.数据库的创建1.1 创建语法CREATE DATABASE [IF NOT EXISTS] database_name# 数据库备注信息[COMMENT database_comment]# HDFS路径[LOCATION hdfs_path] # 数据库的一些参数信息[WITH DBPROPERTIES (property_name=property

2020-05-28 18:22:19 249

原创 Hive数据类型

基本数据类型Hive数据类型对应Java数据类型长度例子TINYINTbyte1byte ,有符号整数20SMALINTshort2byte,有符号整数20INTint4byte,有符号整数20BIGINTlong8byte,有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精度浮点数3.

2020-05-28 16:32:29 306

原创 Hive基本介绍

什么是HiveHive是由Facebook开源,用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。其本质是:将SQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上Hive的优缺点1.优点1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。2)避免了去写MapReduce,减少开发

2020-05-28 14:42:24 695

原创 Spark入门(二)运行模式及安装部署

上一节对Spark进行大致的介绍,包括其历史、特点以及各内置模块等方面内容,书归正题,本节就对Spark框架的安装部署进行大致的介绍。部署Spark集群大体上分为两种模式:单机模式与集群模式。大多数分布式框架都支持单机模式,方便开发者调试框架的运行环境,但是在生产环境中,并不会使用单机模式。因此,后续会直接按照集群模式部署Spark集群。Spark目前支持 4 种运行模式:1)Local模式:在本地部署单个Spark服务(适用于测试)2)Standalone模式:并非是单节点,而是使用Spark自

2020-05-19 23:24:42 714

原创 Spark Action行动算子

Spark Action行动算子1.reduce():聚合2.collect():以数组的形式返回数据集3.count():返回RDD中元素个数4.countByKey():统计每种key的个数5.first():返回RDD中的第一个元素6.take():返回由RDD前n个元素组成的数组7.takeOrdered():返回该RDD排序后,前n个元素组成的数组8.aggregate()9.fold():aggregate的简化版10.save相关的算子11.foreach():遍历RDD中每一个元素*coll

2020-05-14 15:58:32 289

原创 Spark Transformation转换算子

RDD转换算子整体上分为:Value类型、双Value类型和Key-Value类型一.Value类型顾名思义是对单个value值进行运算的算子类型。下面主要从函数签名、功能、案例+图解三个方法介绍这几类算子。1.map():映射1)函数签名:def map[U: ClassTag](f: T => U): RDD[U]2)功能说明参数f是一个函数,它可以接收一个参数。当某个RDD执行map方法时,会遍历该RDD中的每一个数据项,并依次应用f函数,从而产生一个新的RDD。即,这个新RD

2020-05-14 14:37:47 555

原创 Spark入门(一)概述

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。关于Spark首先抛出几个问题:Spark是什么?Spark的优势?(存在价值)Spark主要功能?剩下的关于Spark的框架原理与具体使用,之后再与大家介绍。Spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapRed

2020-05-10 00:16:59 1640

原创 IT技术性博客的写作要点

写博客也有了一段时间,写的大多是一些类学习手册似的文章,感觉整体的技术性不是很强。为了更好的加深自己对技术理解,同时记录自己的技术升级轨迹,也为了写出更好的内容提供给大家,自己总结了一些技术性博客的写作,用以指导自己。1.实战类:问题复盘关键字:背景、排查、解决、防止、总结复盘第一类是实战类的问题,描述在实际工作中的问题,解决问题的思路和技巧。实战类的文章写作思路大概是这样子的:背景排查解决防止以解决某个事故或Bug为例来介绍,同时可以应声引申出某个知识点或者关键性技术。1)背景:首先

2020-05-09 23:04:43 456

原创 推荐系统协同过滤算法——矩阵分解模型

文章目录3.1 简介1.推荐系统的输入1)显式反馈2)隐式反馈2.本章重点3.关联用户与物品的两种CF技术1)基于邻域的方法2)隐语义模型隐语义空间:4.本章内容3.2 预备知识符号正则化防止过拟合3.2.1 基准预测1.原理2.公式3.2.2 Netflix 数据3.2.3 隐式反馈3.3 矩阵分解模型隐语义模型实例SVD的局限SVD的突破本节内容3.3.1 SVD—Singular Value...

2020-05-09 22:28:44 2858

原创 推荐系统协同过滤算法——基于邻域的模型

文章目录3.4 基于邻域的模型3.4 基于邻域的模型

2020-05-09 22:23:42 1178

原创 LaTex常用数学符号

目录:1. 数学符号类型2. 字母表与普通符号2.1 拉丁字母2.2 希腊字母2.3 数学重音3.数学算子4.二元运算符与关系符5.括号与定界符6.标点 常用数学符号的 LaTeX 表示方法:网址1. 数学符号类型普通符号巨算符二元运算符关系符开符号闭符号标点变量族 一般是字母,与普通符号类似2. 字母表与普通符号...

2020-05-09 22:21:02 3321

原创 用户体验要素—以用户为中心的产品设计

文章目录1.用户体验为何如此重要什么是用户体验:从产品设计到用户体验设计用户体验与网站2.用户体验要素3.战略层:产品目标与用户需求产品目标用户需求可用性与用户研究团队角色和流程4.范围层:功能规格和内容需求5.结构层:交互设计与信息架构6.框架层:界面设计、导航设计和信息设计7.表现层:感知设计8.要素的应用提出正确的问题1.用户体验为何如此重要什么是用户体验:用户体验并不是指一件产品是如...

2020-05-09 22:16:36 2341

原创 推荐系统——基于邻域的推荐方法综述

2.2 问题定义和符号1.基本符号定义2.评分预测(rating prediction)评估预测准确性的标准:3.最优N项(Top-N)效果评估标准:方法缺点:2.3 基于邻域的推荐2.3.1 基于用户的评分预测1.基本策略—近邻评分的平均2.存在问题1—近邻权重3.存在问题2—近邻权重2.3.2 基于用户的分类预测方法2.2 问...

2020-05-09 22:16:17 413

原创 Scala异常

Scala异常Java异常处理Scala异常处理Java异常处理1)Java语言按照try—catch—finally的方式来处理异常2)不管有没有异常捕获,都会执行finally,因此通常可以在finally代码块中释放资源。3)可以有多个catch,分别捕获对应的异常,这时需要把范围小的异常类写在前面,把范围大的异常类写在后面,否则编译错误。try { int a = 10;...

2020-05-07 23:52:19 195

原创 Scala模式匹配

Scala模式匹配一.基本语法 match case二.模式守卫三.模式匹配类型1.匹配常量2.匹配类型3.匹配数组4.匹配列表5.匹配元组6.匹配对象7.样例类四.变量声明中的模式匹配五.for表达式中的模式匹配六.偏函数中的模式匹配1.偏函数定义2.偏函数原理3.偏函数使用Scala中的模式匹配类似于Java中的switch语法,但是scala从语法中补充了更多的功能,其功能更加强大。一....

2020-05-07 23:35:23 383

原创 Scala集合

Scala集合一.集合简介1.可变集合2.不可变集合二.数组1.不可变数组:Array2.可变数组:ArrayBuffer3.不可变与可变数组的转换4.多维数组三.Seq 列表:List1.不可变 List2.可变 ListBuffer四.Set 集合1.不可变Set2.可变 mutable.Set五.Map集合1.不可变 Map2.可变 mutable.Map六.元组 Tuple七.队列 Que...

2020-05-07 20:07:34 328

原创 Scala面向对象

Scala面向对象一.关于package1.包的管理方式2.包对象3.导包说明二.类和对象1.定义类2.属性Scala的面向对象思想和Java的面向对象思想和概念是一致的,但Scala语法和Java不同,补充了更多的功能。一.关于package1.包的管理方式Scala有两种包的管理风格:1)和Java的包管理风格相同,每个源文件一个包,包名用“.”进行分隔以表示包的层级关系,如co...

2020-05-03 23:13:29 214

原创 Hadoop实践操作经验

文章目录一.HDFS存储多目录二.Hadoop支持LZO压缩配置1.hadoop-lzo编译2.Hadoop配置3.LZO创建索引三.Hadoop基准测试:HDFS压力测试1.测试HDFS写性能2.测试HDFS读性能3.使用Sort程序评测MapReduce四.Hadoop参数调优1.HDFS参数调优:hdfs-site.xml2.YARN参数调优:yarn-site.xml3.Hadoop宕机...

2020-04-29 08:14:25 504

原创 Scala函数式编程

Scala函数式编程一.Scala语言特性二.Scala函数基础1.函数和方法的区别2.函数基本语法3.函数参数4.函数至简原则*三.Scala函数高级一.Scala语言特性1)面向对象编程解决问题,分解对象,行为,属性,然后通过对象的关系以及行为的调用来解决问题。例如:对象:用户行为:登录、连接JDBC、读取数据库属性:用户名、密码Scala语言是一个完全面向对象编程语言:...

2020-04-29 06:30:25 227

原创 Scala流程控制

Scala流程控制一.if-elseif else 表达式的返回值if else 实现三元运算二.for循环1.基础语法:<-、to、until2.循环守卫:if3.循环步长:by4.嵌套循环5.引入变量6.循环返回值:yield7.倒序打印:reverse三.While和do..While四.循环中断1.采用异常处理退出循环2.采用Scala自带的函数:Breaks的breakable()...

2020-04-27 23:22:11 208

原创 Scala基础语法(变量、数据类型与运算符)

Scala语法基础一.变量与数据类型1.注释2.变量与常量*3.标识符与命名规则4.字符串输出5.键盘输入6.数据类型*1)整数类型(Byte、Short、Int、Long)2)浮点类型(Float、Double)3)字符型(Char)4)布尔类型(Boolean)7.Unit类型、Null类型和Nothing类型*8.类型转换1)数值类型自动转换2)强制类型转换3)数值类型和String类型间转...

2020-04-27 13:58:46 672 1

原创 Scala概述

Scala基础知识一.Scala运行原理Scala与Java 、JVM的关系语言特点环境搭建class和object说明伴生类与伴生对象所属类二.变量与数据类型一.Scala运行原理1.计算机语言发展过程机器语言汇编语言高级语言解释型语言(JavaScript)要想运行多次,需要进行多次解释支持跨平台编译型语言(C\C++)要想运行多次,不需要进行多次编译不支持跨...

2020-04-27 13:47:13 436

原创 GitHub概述及基本操作

GitHub1.GitHub是什么?2.Git与GitHub操作2.1 GitHub上的操作2.2 Git上对GitHub的操作1.前提2.Git推送至GitHub:git remote add/git push3.Git克隆/更新GitHub上的项目:git clone/git pull2.3 协作冲突2.4 Git免密登陆GitHub3.Git工作流1.GitHub是什么?GitHub...

2020-04-27 13:39:41 426

原创 Java基础—多线程

Java多线程一.线程的相关概念1.程序、进程、线程2.单核CPU和多核CPU的理解3.并行与并发4.单线程 & 多线程5.多线程的好处6.多线程的应用场景二.线程的创建和启动 ★1.java.lang.Thread类2.创建线程的两种方式1)继承Thread类2)实现Runnable接口3.start与run的区别4.两种创建方式的区别:窗口买票案例三.线程的停止方式四.线程的其他知识1...

2020-04-27 00:04:12 371

原创 JAVA基础(五)单例设计模式

懒汉式饿汉式

2020-04-26 15:32:37 92

原创 Java基础(六)单列集合—Collection

文章目录一.单列集合—Collection1.Collection[接口]具体方法1)Collection的“toString()方法”2)Collection的成员方法2.迭代器:2.List接口ArrayListVector总结:LinkedList3.Set接口 - 集合HashSetTreeSet1)自然排序[内部比较器] --> 元素实现了 Comparable 接口2)比较器排序...

2020-04-26 14:47:39 267

原创 Java基础(七)双列集合—Map

文章目录双列集合—Map问题1.概述方法遍历方式HashMap1.源码分析:2.hash方法的原理:3.put方法的原理: ★4.如何将链表结构转换成树结构?HashtableTreeMapProperties类[IO流]双列集合—Map问题1.Map 中的 Entry 接口是什么作用?interface Entry<K,V>1)HashMap/HashTable中...

2020-04-26 14:47:31 273

原创 Java编程基础知识清单

文章目录Java运行原理配置环境Java语言基础程序流程控制方法的定义数组面向对象异常集合线程IO反射Java运行原理1.计算机语言发展过程机器语言汇编语言高级语言解释型语言(JavaScript)要想运行多次,需要进行多次解释支持跨平台编译型语言(C\C++)要想运行多次,不需要进行多次编译不支持跨平台2.Java运行原理先编译,再解释....

2020-04-24 23:26:21 840

原创 IDEA常用快捷键

IDEA常用快捷键介绍1.IDEA常用快捷键2.常用操作IDEA内存优化查询快捷键自动代码复制快捷方式其他快捷方式下面的不是很有用1.IDEA常用快捷键快捷键功能Ctrl+G跳转到指定行Ctrl+F4关闭当前编辑页面Ctrl+F搜索Alt+回车导入包,自动修正Ctrl+N查找类Ctrl+Shift+N查找文件Ctrl+Alt...

2020-04-19 13:32:01 189

原创 如何查看框架的运行日志

解决问题的关键:日志一.发现问题:查看运行日志,并找到问题找到日志:a. 框架是tar包解压的->去找它的log4j.properties文件,或者在框架解压目录下,或者/tmpb. 框架是rpm包安装的->去/var/log目录下找日志c. 实在找不到,百度一下二.分析原因根据日志级别与日志内容分析问题原因怎么看日志:a. 不要用vim看日志.b. 用t...

2020-04-05 14:14:25 535

原创 Hadoop(一)概述与配置安装

Hadoop入门基础理论部分实践操作部分基础理论部分实践操作部分

2020-04-05 14:04:07 369

原创 JavaEE—1.Maven[未完]

1.为什么要使用Maven?之所以会提出这个问题,是因为即使不使用Maven我们仍然可以进行B/S结构项目的开发。从表述层Servlet、业务逻辑层到持久化层DAO再到数据库都有成熟的解决方案——不使用Maven我们一样可以开发项目啊?所以我们有必要通过企业开发中的实际需求来看一看哪些方面是我们现有技术的不足。Maven解决的问题1)只添加一次第三方Jar包使用Maven后每个jar包...

2020-03-12 15:43:02 101

原创 JavaWeb基础2—Tomcat服务器与Servlet

一.Tomcat服务器Web服务器:Web服务器主要用来接收客户端发送的请求和响应客户端请求。1)Tomcat服务的目录结构2) 配置环境变量,方便Tomcat的启动关闭(可选)新建环境变量CATALINA_HOME=解压目录在Path环境变量中加入Tomcat解压目录\bin目录在命令行中运行catalina run或者 startup启动Tomcat服务器,在浏览器地址栏...

2020-03-12 15:41:46 330

原创 JavaWeb基础3—JSP、EL与JSTL

JavaWeb的技术体系一.Java Server PagesJSP 与 PHP、ASP、ASP.NET 等语言类似,运行在服务端的语言。JSP(全称Java Server Pages)是由 Sun Microsystems 公司倡导和许多公司参与共同创建的一种使软件开发者可以响应客户端请求,而动态生成 HTML、XML 或其他格式文档的Web网页的技术标准。1)JSP全称Java ...

2020-03-12 15:41:37 159

原创 JavaWeb基础5—Cookie和Session会话控制

浏览器与服务器通信

2020-03-12 15:41:13 308

原创 Java虚拟机运行时数据区概述

运行时数据区1.Native Method Stack:本地方法栈2.Program Counter Register:程序计数器3.Method Area:方法区4.Stack栈5.Java Heap 堆总结:JVM在执行Java程序过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域都有各自用途、创建与销毁时间,有的随着虚拟机进程启动而存在,有些区域则依赖用户线程启动和结束而建立和销...

2020-03-12 15:40:18 122

hive-jdbc-3.1.2-standalone.jar

Hive连接的jar包——hive-jdbc-3.1.2-standalone.jar,使用数据库连接软件连接数据仓库时需要使用相应的驱动器驱动,希望对大家有所帮助

2020-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除