hynanan-CSDN博客

原创【转】数仓中的名词解释

你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：撤销：Ctrl/Command + Z重做：Ctrl/Command + Y加粗：Ctrl/Command + B斜体：Ctrl/Command + I标题：Ctrl/Command + S

2023-11-06 09:56:28 61

原创 IDEA的New Project 中Spring Initializr选项不见了

文章目录IDEA的New Project 中Spring Initializr选项不见了情况一情况二IDEA的New Project 中Spring Initializr选项不见了情况一在setting=>Plugins=》Insatlled，中搜索Spring Initializr，如果有的话，勾选，并重新启动即可。情况二在setting=>Plugins=》Insatll...

2019-10-21 15:57:43 801

原创 hive

文章目录基本介绍基本操作DDL语句建表语句改表语句DML语句loadinsertDQL语句select基本介绍略基本操作DDL语句建表语句CREATE [EXTERNAL] TABLE [IF NOT EXISTS]table_name [(col_name data_type [COMMENT col_comment], ...)] *列详情* [COMMENT t...

2019-10-09 15:23:19 147

原创 hive 导入数据的方式

文章目录本地文件导入到hive中去hdfs文件导入到hive中hive A表导入到B表中overwrite的作用本地文件导入到hive中去load data local inpath '/home/hadoop/data/test1.txt' into table test1;此处的文件是从linux中的路径中取的文件插入到test1表中去的hdfs文件导入到hive中load d...

2019-10-08 11:35:49 280

转载计算机资源

什么是计算机资源经典的冯诺依曼结构把计算机系统抽象成 CPU + 存储器 + IO，那么计算机资源无非就两种：计算资源存储资源CPU和IO密集型1.CPU密集型代码(各种循环处理、计数等等)2.IO密集型代码(文件处理、网络爬虫等)判断方法：1.直接看CPU占用率, 硬盘IO读写速度2.计算较多->CPU;时间等待较多(如网络爬虫)->IO————————————...

2019-09-23 16:08:57 1479

原创 python 接口说明

python混合接口说明list的添加元素接口（append、extend、insert）append：是在list的尾部添加元素。添加的元素作为一个单位。extend：同样是在list的尾部添加元素，但是当添加的元素为list2时，是将list2迭代插入到list中。insert：向list中的某一位置添加元素。...

2019-09-16 16:08:02 371

原创 linux 设置环境别名 alias

由于最近使用linux居多，因此在使用上会选择设置一些快捷键。alias关键字步骤：使用root用户登录。(我选择在一个自己创建的目录下创建文件 /env )创建一个执行脚本 .init.sh（这里设置成隐藏文件，避免之后的误删除）修改.init.sh文件的权限，以便其他用户也能够使用。 chmod 755 .init.sh在 /etc/bashrc(之前写在/etc/prof...

2019-09-05 16:56:15 277

原创添加自定义的类库路径

问题背景：在linux上使用python的时候，由于环境上在不同用户下，python的版本都不一样，所以在导致使用上类库中的moudle经常忘记那个模块安装了那个没有安装。因此需要设置一个全局的变量来统一环境。解决方式：分析：Python会在以下路径中搜索它想要寻找的模块：程序所在的文件夹标准库的安装路径操作系统环境变量PYTHONPATH所包含的路径由以上可知，我们可以设置...

2019-09-05 15:21:07 206

转载【1.7】spark 数据本地化

数据本地化对于Spark Job性能有着巨大的影响。如果数据以及要计算它的代码是在一起的，那么性能当然会非常高。但是，如果数据和计算它的代码是分开的，那么其中之一必须到另外一方的机器上。通常来说，移动代码到其他节点，会比移动数据到代码所在的节点上去，速度要快得多，因为代码比较小。Spark也正是基于这个数据本地化的原则来构建task调度算法的。数据本地化，指的是，数据离计算它的代码有多近。基于...

2019-02-20 22:33:21 131

转载【1.6】spark 运行模式

Spark运行模式可以分为三类：本地模式，独立模式，Spark on YARN/Mesos。1. 本地模式在本地模式下，Spark应用程序以多线程形式直接在本地运行，方便程序调试。本地模式有可以分为以下三种：local：只启动一个executorlocal[k]：启动k个executorlocal[*]：启动和CPU数相同的executor在前面的spark-shell中日志...

2019-02-14 17:34:31 115

转载【1.5】spark 持久化和checkpoint的区别

在Spark 的持久化使用中，我们会将一些经常使用到的数据进行持久化，比如使用cache()或者persist()方法进行持久化操作，但是当某个节点或者executor挂掉之后，持久化的数据会丢失，因为我们的数据是保存在内存当中的，这时就会重新计算RDD，如果某个之前的RDD需要大量的计算时间，这时将会浪费很多时间，因此，我们有时候需要使用checkpoint操作来将一些数据持久化可容错文件系统中...

2019-02-14 17:17:59 250

转载【1.4】spark checkpoint的解析

checkpoint在spark中主要有两块应用：一块是在spark core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；另外一块是应用在spark streaming中，使用checkpoint用来保存DStreamGraph以及相关配置信息，以便在Driver崩溃重启的时候能够接着之前进度继续进行处理...

2019-02-14 17:06:10 108

转载【1.3】spark RDD的持久化

1.RDD持久化的优点 Spark最重要的一个功能，就是在不同操作间，持久化（或缓存）一个数据集在内存中。当你持久化一个RDD，每一个结点都将把它的计算分块结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其它动作中重用。这将使得后续的动作（action）变得更加迅速（通常快10倍）。缓存是用Spark构建迭代算法的关键。RDD的缓存能够在第一次计算完成后，将计算结果保...

2019-02-14 17:02:39 225

转载【1.2】创建spark程序的步骤

Spark代码流程（1）创建SparkConf对象可以设置Applicationname、可以设置运行模式及资源需求。（2）创建SparkContext对象（3）基于Spark的上下文创建一个RDD，对RDD进行处理（4）应用程序中要有Action类算子来触发Transformation类算子执行。（5）关闭Spark上下文对象SparkContext。-...

2019-02-14 11:19:48 868

转载【1.1】spark on yarn 模式

1、基于yarn-client模式（1）Hadoop集群启动，NodeManager（NM）向ResourceManager（RM）通信，汇报各自资源，RM掌握集群资源（2）client上提交spark应用，同时启动Driver，client向RM申请资源，启动ApplicationMaster(AM)（3）RM在随机选择集群中的一个NM，来启动AM，AM向RM申请资源启动Exec...

2019-02-14 10:50:05 145

原创隐式函数相关

隐式函数相关隐式函数1.隐式转换函数2.隐式转换规则3.隐式转换发生的情况4.隐式转换不会发生的情况5.隐式参数隐式函数隐式函数就是类似于scala在背地里默默帮我们处理一些既定的方法。1.隐式转换函数隐式转换函数值得是那种以implicit关键字声明的带有单个参数的函数。正如他的名称所表达的，这样的函数将被自动应用，将值从一种类型转换为另一种类型。//定义了一个隐式函数默认将Dou...

2018-12-11 17:00:05 1875

转载线程中join方法的使用

join方法有三个重载版本： join() join(long millis) //参数为毫秒 join(long millis,int nanoseconds) //第一参数为毫秒，第二个参数为纳秒假如在main线程中，调用thread.join方法，则main方法会等待thread线程执行完毕或者等待一定的时间。如果调用的是无参join方法，则等待thr...

2018-02-26 13:59:10 906

原创多表查询 left/right join

在sql中经常会遇到多表查询的情况，之前用到的方式是select A.id, B.name, C.dict_value sex from A,B,C where A.id=B.id and A.sex=C.dict_key and a.status='00'但是这种方式有个缺点就是查询出来的结果是三表里关联的字段必须有值（表间没有主从关系）因此可以用到left/right join...

2018-01-05 13:50:57 576

原创 eclipse 点击变量名的时候相同的变量名高亮

在使用eclipse的时候有时候想根据相同的变量名或是方法名查找快速查找相对的位置时，若是没有出现，则可使用快捷键 >> alt+shift+o

2018-01-05 12:02:22 216

原创向字符串中指定位置插入字符

String a = houseId;public String addFlag(String a) { //将字符串转换成可变字符串 StringBuffer s = new StringBuffer(a); //遍历字符串 for (int i = 0; i < a.length(); i++) {

2017-10-20 19:26:33 3977

原创 MD5加密

之前在做项目代码的熟悉时，又看到别人数据库在用户表中密码栏中的数据均为一串固定长度的字符，这让我想起了之前所看到的数据加密，我就专门去看了看MD5的加密方式。 MD5是一个安全的散列算法，输入两个不同的明文不会得到相同的输出值，根据输出值，不能得到原始的明文，即其过程不可逆；MD5用途：1、防止被篡改： 1）比如发送一个电子文档，发送前，我先得到MD5的输出结果a。然后在对方收到电子文档后，对方也...

2017-08-04 16:33:56 362

hynanan的博客