自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

转载 ChatGPT基础科普——知其一点所以然

ChatGPT基础科普——知其一点所以然语言的本质  很久以前,有一个神奇的星球,居住着各种各样的生物。这些生物虽然各自拥有不同的能力,但却没有办法与其他种类的生物进行有效沟通。因为在这个星球上,每个生物都有自己独特的交流方式,无法理解其他生物的语言。  有一天,这个星球来了一个神秘的外星人。他告诉这些生物,他们可以通过学习一种全新的、独特的沟通方式来实现相互之间的交流。这种沟通方式就是“语言”。外星人决定将这种神奇的沟通能力赋予其中一种生物,让它们成为这个星球上唯一掌握语言能力的生物。为了公平起见,

2024-02-02 16:25:59 69

原创 kafka的sasl权限管理

kafka权限配置

2022-06-02 14:37:35 840

原创 spark读取PMML文件

使用python训练模型生成PMML文件,然后用spark读取package com.ubiai.zhyx.sparkimport com.ubiai.zhyx.utils.SparkHelperimport org.apache.spark.ml.Transformerimport org.apache.spark.sql.{DataFrame, SparkSession}import org.jpmml.evaluator.spark.TransformerBuilderimport or

2022-04-18 16:44:20 2994 3

原创 Scala自定义While循环

// 自定义实现while循环 利用 闭包 抽象控制 尾递归 匿名函数 柯里化import scala.annotation.tailrecobject MyWhile { def main(args: Array[String]): Unit = { // 用闭包时间while函数,将代码块作为参数传入,递归调用 def myWhile(condition: =>Boolean): (=>Unit) =>Unit = { // 内层函数需要递归

2022-04-15 17:30:33 484

原创 Scala抽象控制

object ControlAbstraction { def main(args: Array[String]): Unit = { // 传值参数,传递的是具体的值 def f0(a: Int) = { println("a: " + a) println("a: " + a) } def f1():Int = { println("f1调用") 12 } f0(f1()) /*

2022-04-15 16:56:31 313

原创 Scala的闭包和柯里化

// 闭包 函数内部访问到了它的外部(局部)变量的值,这个函数和它所处的环境 成为闭包def addByA(a: Int): Int=>Int = { def addB(b: Int): Int = { a + b } addBprintln(addByA(4))//<function1> 返回值是函数 println(addByA(4)(1))//16 返回值是数值 // 使用匿名函数def addByA1(a: Int): Int=&g

2022-04-15 16:40:55 365

原创 scala函数高阶用法

// 函数作为返回值使用def func(i: Int): String => Char => Boolean = { def f1(s: String): Char => Boolean = { def f2(c: Char): Boolean = { if (i == 0 && s == "" && c == '0') true else false } f2 } f1}println(func(1)

2022-04-14 15:58:09 81

原创 xgboost训练鸢尾花数据集

from sklearn import datasetsfrom sklearn.pipeline import Pipelineimport pandas as pdfrom xgboost import XGBClassifierfrom nyoka import xgboost_to_pmmlfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import cross_val_sc

2022-04-14 12:02:45 1079

原创 Hive表描述乱码

在进行查看hive表字段描述信息的时候发现乱码一,查看当前编码1.打开mysql查看当前编码mysql> \s看到当前编码格式2.接着输入下面语句查看mysql> show variables like "char%";二、我们修改my.cof配置文件在mysqld里面添加下面的属性[mysqld]init_connect='SET collation_connection = utf8_unicode_ci'init_connect='SET NAMES ut

2022-01-26 10:46:44 3602

原创 dolphinscheduler集群搭建

1.解压安装包[hadoop@hadoop101 package]$ tar -zxvf apache-dolphinscheduler-1.3.6-bin.tar.gz -C /opt/software/2.创建安装目录在每台服务器的相同目录下都创建dolphinscheduler-1.3.6注意:这是ds的安装目录,不能和解压目录相同[hadoop@hadoop101 software]$ mkdir dolphinscheduler-1.3.6进入dolphinscheduler中[

2021-12-17 18:21:59 466

原创 使用maven编译时遇到 Could not transfer artifact org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT from/to nexus

在maven进行编译的时候遇到如下的错误Could not transfer artifact org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT from/to nexus maven (https://repo.maven.apache.org/maven2/)修改pom文件<dependency> <groupId>org.apache.hive</groupId> <artifactId>

2021-12-07 16:10:42 2097

原创 解决windows中不识别hadoop版本

hadoop -version不识别在windows中查看hadoop的版本出现以下问题是因为java的路径问题,我安装java的时候默认安装到c盘中C:\Program Files\Java现在hadoop不识别java的路径我们进入D:\hadoop-2.6.5\etc\hadoop中修改hadoop-env.cmd文件set JAVA_HOME=C:\PROGRA~1\java\jdk1.8.0_77这里PROGRA~1等价于Program Files然后再win+r输出cmd查

2021-10-28 16:29:24 1127

原创 hive元数据连接失败

执行以下操作发现mysql数据不能被初始化schematool -dbType mysql -initSchema解决上述初始化mysql元数据库失败的情况,进入mysql执行下面操作mysql> SET GLOBAL binlog_format = 'STATEMENT';mysql> SET GLOBAL binlog_format = 'ROW';mysql> SET GLOBAL binlog_format = 'MIXED';...

2021-10-21 12:26:14 406

原创 解决无法在ds上创建租户的问题

在 common.properties文件中的用户为dolphinscheduler,进入文件我们可以看到# if resource.storage.type=HDFShdfs.root.user=dolphinscheduler执行命令hdfs dfs -mkdir /user/dolphinschedulerhdfs dfs -chown dolphinscheduler:supergroup /user/dolphinscheduler...

2021-10-21 12:23:43 2176

原创 ORG.APACHE.HADOOP.SECURITY.ACCESSCONTROLEXCEPTION: PERMISSION DENIED: USER=

ORG.APACHE.HADOOP.SECURITY.ACCESSCONTROLEXCEPTION: PERMISSION DENIED: USER=这个是权限问题,可以配置下,然后重启hadoop集群解决,目前简单的解决方式是:在 hdfs-site.xml 总添加参数:<property> <name>dfs.permissions</name> <value>false</value></property>

2021-10-21 12:19:20 1301

原创 找不到http类解决方案

报错java.lang.ClassNotFoundException:org.apache.http.config.Lookup解决方式今天在运行idea程序的时候遇到如下的错误只需要在pom文件中导入下面两个依赖即可解决<dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <vers

2021-07-07 22:30:44 299

原创 右键快捷创建mk文件

右键创建md文件的快捷方式1.输入win+R 然后输入regrdit进入注册表2.然后进入计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Classes找到.md如下图,创建TyporaMarkdownFile在第4步3.右键点击.md新建项,名称为ShellNew,按照下图修改参数4.然后查找是否图中框中的项,没有的话就在计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Classes下创建,修改TyporaMarkdownFile的数据,这里自己定义名字即可,定

2021-06-22 22:52:06 384 2

原创 大数据之HBASE的rowKey设计原则

大数据之HBASE的rowKey设计原则1.长度原则Rowkey是一个二进制码流,Rowkey的长度被很多开发者建议说设计在10~100个字节,不过建议是越短越好,不要超过16个字节。原因如下:(1)数据的持久化文件HFile中是按照KeyValue存储的,如果Rowkey过长比如100个字节,1000万列数据光Rowkey就要占用100*1000万=10亿个字节,将近1G数据,这会极大影响HFile的存储效率;(2)MemStore将缓存部分数据到内存,如果Rowkey字段过长内存的有效利用率会

2021-06-17 21:18:36 195 1

转载 MySQL的B+树索引

写在前面 大家在面试的时候,肯定都会被问到MySql的知识,以下是面试场景: 面试官:对于MySQL,你对他索引原理了解吗? 我:了解 面试官:MySQL的索引是用什么数据机构的? 我:B+树 面试官:为什么要用B+树,而不是B树? 我:… 面试官:用B+树作为MySql的索引结构...

2021-06-11 17:34:10 769

原创 大数据之HBase的读写流程

大数据之HBase的读写流程写流程图示过程1. HBase使用memstore和storefile存储对表的更新。数据在更新时首先写入hlog和memstore,memstore中的数据是排序的,当memstore累计到一定的阀值时,就会创建一个新的memstore,并将老的memstore添加到flush队列,由单独的线程flush到磁盘上,成为一个filestore。与此同时,系统会在zookeeper中记录一个checkpoint,表示这个时刻之前的数据变更已经持久化了。当系统出现意外时,可

2021-06-07 20:36:27 307 3

原创 大数据之Hbase认知

HBASE介绍HBase定义HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)HBase特性- HBase的表模型与关系型数据库的表模型不同:- HBase的表没有固定的字段定义;- HBase的表中每行存储的都是一些key-value对- HBase的表中有列簇的划分,用户可以指定将哪些kv插入哪个列族- HBase的表在物理存储上,是按照列簇来分割的,不

2021-06-04 21:28:56 124 2

原创 DataX遇到的坑

今天在使用DataX的时候遇到一个小坑在调度任务的时候出现以下错误 File "datax.py", line 114 print readerRef ^SyntaxError: Missing parentheses in call to 'print'. Did you mean print(readerRef)?是因为python的环境不匹配,修改python环境为2.7.5即可运行按照以下步骤rm -rf /usr/bin/pythonrm -rf /u

2021-05-22 18:59:05 1447

原创 大数据之hive调优

hive的调优优化的主要考虑方面:环境方面:服务器的配置、容器的配置、环境搭建具体软件配置参数:代码级别的优化优的主要原则: 20/80原则非常重要,简单的说80%的程序时间执行时间花费在20%的代码上,所以重点就先要 找到这关键的20%代码做重点优化.1.explain 和 explain extendedexplain : 只有对hql语句的解释。explain extended:对hql语句的解释,以及抽象表达式 树的生成。 当执行上面两个语句时.一般会分为多个stagestag

2021-05-17 22:26:04 337

原创 大数据之hive函数

函数系统内置函数(较多用的)hive> show funtions;日期函数:-- 时间戳转日期 select from_unixtime(1505456567); select from_unixtime(1505456567,'yyyyMMdd'); select from_unixtime(1505456567,'yyyy-MM-dd HH:mm:ss');-- 获取当前时间戳 select unix_timestamp();-- 日期转时间戳 select unix_

2021-05-10 22:51:01 114

原创 大数据之hive的查询

hive的Shell指令1. hive> set 2. hive -e “命令” 只执行一次3. hive -S -e "set" | grep cil.print4. hive -f /path/cat.sql5. hive> source /path/cat.sql6. hive> !pwd; 在hive内显示所在路径7. hive> dfs -ls /; 在hive内部执行hdfs命令分区和分桶:分区和分桶都是为了提高hiv

2021-05-06 21:12:49 384

原创 大数据之hive概述

hive简介Hive最早来源于FaceBook ,因为FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了Hive这门技术,并继续发展成为一个成功的Apache项目。hive的架构图示用户连接接口CLI:是指Shell命令行 JDBC/ODBC:是指Hive的JAVA实现,与传统数据库JDBC类似。 WebUI:是指可通过浏览器访问Hive。thriftserverhive的可选组件,此组件是一个软件框架服务,允许客户端使用包括Java、

2021-04-29 21:50:54 408

原创 大数据之mapreduce流程

MapReduce运行流程一个完整的MapReduce程序在分布式运行时有三类实例进程:1) MRAppMaster:负责整个程序的过程调度及状态协调 2) MapTask:负责map阶段的整个数据处理流程 3) ReduceTask:负责reduce阶段的整个数据处理流程 当一个作业提交后(mr程序启动),大概流程如下:1) 一个mr程序启动的时候,会先启动一个进程Application Master,它的主类是MRAppMaster 2) appmaster启动之后会根据本次job

2021-04-27 22:25:47 311

原创 大数据之ZKFC和YARN的job提交

自动容灾(ZKFC)ZKFC(是一个进程,和NN在同一个物理节点上)有两只手,分别拽着NN和Zookeeper。(监控NameNode健康状态,并向Zookeeper注册NameNode);集群一启动,2个NN谁是Active?谁又是Standby呢?2个zkfc先判断自己的NN是否健康,如果健康,2个zkfc会向zoopkeeper集群抢着创建一个节点,结果就是只有1个会最终创建成功,从而决定active地位和standby位置。如果ZKFC1抢到了节点,ZKFC2没有抢到,ZKFC2也会监控

2021-04-25 21:26:39 188

原创 大数据之HDFS的读写操作

大数据之HDFS的读写操作读操作官方图详解图流程解释1.客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说,这个对象是DistributedFileSystem,它通过使用远程过程调用(RPC)来调用namenode,以确定文件起始块的位置 2.对于每一个块,NameNode返回存有该块副本的DataNode地址,并根据距离客户端的远近来排序。 3.DistributedFileSystem实例会返回一个FSDataInputStream对

2021-04-23 21:25:14 281

原创 大数据以及Hadoop基础

大数据通过技术对海量的数据的存储,和运算。特点巨大的数据量,数据类型多样化,增长数据快,价值密度低大数据工作流程获取数据源关系型数据库,日志文件,三方数据数据采集sqoop,flume,kafka数据存储HDFS,HBase,ES数据清洗MapReduce,Hive(ETL),SparkCore,sparksql数据分析MapReduce、Hive、SparkSQL、impala(impa:le)、kylin再存储关系型数据库数据展示metastore、Javaweb、h

2021-04-22 22:03:18 105

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除