zdsg1024-CSDN博客

Centos7.4操作系统安装1.U盘准备2.下载相关装机工具3. 制作UEFI启动盘4. 设置U盘启动5. U盘启动后的磁盘路径或者lable标签修改6. 安装linux操作系统7. 安装踩坑--步骤5解释1.U盘准备centos7系统的安装只支持fat32文件格式的磁盘，当作系统盘只有不超过32G的U盘才支持格式化为fat32文件格式如果U盘大于32G，也有方法,不过比较麻烦,建议换一个8G，16G，32G的U盘格式化U盘为fat32的文件格式2.下载相关装机工具我这里用的Ultra

2022-01-24 14:36:02 1967

原创 sqoop导出parquet格式的hive表

sqoop导出parquet格式的表结论1：sqoop导出parquet格式的表,必须指定hive的数据库与表名遇到的问题1：ERROR sqoop.Sqoop: Got exception running Sqoop: org.kitesdk.data.DatasetNotFoundException: Descriptor location does not exist: hdfs://XXX/.metadata原因：采用了传统的导出数据的方式sqoop export \--conne

2021-01-11 19:44:32 1683

原创 Jackson读取xml

Jackson读取xml需要添加的依赖 <!--lombok--构造器,getter，setter快捷生成> <dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.16.10</

2020-11-15 18:59:32 1215

原创 spark任务在yarn中的资源分配

yarn中spark任务的资源分配监控页面: master://8088所占内存总大小: 参数如下图:实际情况中，应用程序申请到的资源量一定大于所申请的资源量例如：spark driver指定内存 2g，executor指定内存 2g*3 合计应该是8192M内存但实际上分配的内存或许为 12288M 等，为何会出现这样的情况？因为由JVM自身的开销，并且还涉及到一个名词——规整化因子并且yarn的不同任务调度模式下的资源分配总理的计算方式是不同的规整化因子关于内存的默认配置: ya

2020-11-02 14:36:09 1166

原创 pycharm配置pyspark环境

1.本地安装spark2.本地安装python3.本地安装pycharm4.在pycharm右上角run左边有一个edit configuration，打开5.configuration–environment–environment variables—点击右边添加6.添加 SPARK_HOME值为spark的安装路径7.添加 PYTHONPATH值为spark的安装路径下的python路径,保存关闭8.file—settings—搜索project structure===点击最右边ad.

2020-10-13 16:10:16 831

原创 SparkStreaming之direct方式消费kafka数据偏移量相关问题

SparkStreaming之direct方式消费kafka数据偏移量相关问题direct方式支持不支持自动维护偏移量-----------不支持那么看看direct方式消费时怎么判断偏移量的？？stream = KafkaUtils.createDirectStream( jssc, ConsumerStrategies.Subscribe(

2020-09-18 18:11:32 436

原创 kafka中auto.offset.reset参数详解

kafka中auto.offset.reset的参数详解:noneearliestlatest所有介绍的前提,同一个消费者组下none如果没有为消费者找到先前的offset的值,即没有自动维护偏移量,也没有手动维护偏移量,则抛出异常earliest在各分区下有提交的offset时：从offset处开始消费在各分区下无提交的offset时：从头开始消费latest在各分区下有提交的offset时：从offset处开始消费在各分区下无提交的offset时：从最新

2020-09-18 18:08:32 13374

原创 sqoop map并行度以及split-by数量详解

Sqoop 同步记录文章目录Sqoop 同步记录1. sqoop -m2. sqoop --split-by3.sqoop --split-by 分割机制3.1 分割int类型3.2 分割date类型3.3 分割varchar类型4. sqoop --split-limit5. map的数量由什么决定6.为什么要设定--split-limit1. sqoop -m有一种情况可以不需要指定 sqoop -m就是你要同步的表有主键,这样的话sqoop默认会按照主键进行split然后分成4个map并行执行

2020-07-10 10:14:46 4655 3

原创源码解读两个JSONObject的equals方法

alibaba.fastjson源码分析JSONObject的equals方法JSONObject的创建//默认创建一个空的JSONObject 底层使用的是hashMap//hashMap内部是按照key的ASCII码进行排序 JSONObject jsonObj1 = new JSONObject();//创建一个内部有序的JSONObject，那么可以使用linkedHashMap//指定内部数据按照put的顺序有序排序 JSONObject jsonObj2 = new JSONObj

2020-05-12 10:20:04 3094

原创 ML----KNN算法----Spark实现

KNN算法思想KNN（k-NearestNeighbor）又被称为最近邻算法，它的核心思想是：物以类聚，人以群分。KNN算法是机器学习中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。KNN是一种分类算法，KNN没有显式的学习过程，也就是说没有训练阶段，待收到新样本后直接进行处理。KNN的思路是：如果一个样本在特征空间中的k个最邻...

2019-12-10 21:42:53 1797 3

原创 Spark中DF落地到hive中进行动态分区以及小文件问题

五个注意点hive的动态分区需要开启非严格模式set hive.exec.dynamic.partition.mode=nonstrictinsertInto方式不支持分区表数据导入saveAsTable与insertInto的区别指定的分区列必须为当前表中的某个列比如一张主题表中想保留Long类型的ct字段,又想根据ct转化为String类型的bdp_day来进行分区，就需要在当...

2019-11-28 16:47:05 1742 3

原创 Spark落地到hive表时saveAsTable与insertInto的区别

SaveAsTable//Api的解释Saves the content of the `DataFrame` as the specified table.** In the case the table already exists, behavior of this function depends on the* save mode, specified by the `mod...

2019-11-28 14:35:09 5181 2

原创 LogStash与Fume的区别

首先需要了解一下flume的三个组件与logstash三个组件的关系flume中的三个组件 source channel sinklogstash中的三个组件 input filter outputlogstash中的finput相当于flume中的source----从那里读数据logstash中的filter相当于flume中source端的interceptor------...

2019-11-24 16:26:44 252

原创 ElasticSearch5.x以及head插件的安装，以及安装过程中遇到的问题

ElasticSearch版本选择elasticsearch 5.x -----> jdk 1.8+NodeJs 6.x+ElasticSearch下载ElasticSearch-Header下载NodeJs下载elasticsearch启动./bin/elasticsearch访问: 127.0.0.1:9200 //这是在linux本地访问elasticsear...

2019-11-24 16:03:02 172

原创 LogStash实操

LogStash实操简单的从本地输入,输出到本地logstash -e 'input{stdin{}}output{stdout{codec=>rubydebug}}'从本地输入,输出到eslogstash -e 'input{stdin{}} output {elasticsearch{hosts=>["hadoop111:9200"]}}'##会在es根据时间生成一个索引...

2019-11-24 15:58:10 586

原创使用javaAPI的方式指定elasticSearch的分词插件ik的analysis

因为分词查询针对的是某一个字段,所以需要指定字段的analysis 这里我使用的是es5.5.2版本package com.ali.es.ik;import org.elasticsearch.action.admin.indices.create.CreateIndexResponse;import org.elasticsearch.action.admin.indices.m...

2019-11-22 19:12:06 1259

原创 Kafka Consumer均衡策略，消费者对应消费哪个分区

Kafka Consumer均衡算法如下图，有一个topic,这个tpoic的partition和他们所在的broker的图如下broker有两个 broker1 broker2总共有四个分区，按照哈希取模算法分配同一个消费者组中有6个消费者同一个消费者组中的消费者分别消费哪个分区?均衡算法1.A=(partition数量/同分组消费者总个数) 2.M=对上...

2019-11-17 11:57:36 1697

原创 java创建线程的三种方式与区别(看了包懂)

java创建线程的三种方式1.继承Thread类创建线程定义Thread类的子类,并重写该类的tun方法,该方法体就是线程需要完成的任务run方法也称线程执行体创建Thread子类的实例，也就是创建了线程对象启动线程，即调用线程的start() 方法class MyThread extends Thread{ public void run(){ //重...

2019-11-09 09:36:08 604

原创硬盘分区

1.计算机硬盘实际容量要比标称容量小？硬盘实际容量计算公式 S=0.931*X硬盘厂商的标准：1GB=1,000MB、1MB＝1,000KB、1KB＝1,000byte操作系统的算法：1GB=1,024MB、1MB＝1,024KB、1KB＝1,024byte/////以40G为例硬盘厂商的标准:40GB=40000MB=40000000KB=40000000000byte...

2019-10-31 10:21:27 905

原创 sqoop常用参数详解与应用

Sqoop常用参数详解与应用Sqoop是一个Hadoop和关系型数据库的数据迁移工具(非关系型数据库不支持,hbase除外)官网: http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html#_purposesqoop语句要求写到一行,多行时用\连接import 常用参数sqoop import … --null-string ‘...

2019-10-14 21:50:06 1119

原创 hive文件存储格式orc,parquet,avro对比

orc文件存储格式ORC文件也是以二进制方式列式存储的，所以是不可以直接读取，ORC文件也是自解析的，它包含许多的元数据，这些元数据都是同构ProtoBuffer进行序列化的。文件结构如下ORC文件：保存在文件系统上的普通二进制文件，一个ORC文件中可以包含多个stripe，每一个stripe包含多条记录，这些记录按照列进行独立存储，对应到Parquet中的row group的概念。文...

2019-10-13 19:02:37 3781

原创拉链表

拉链表1.什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史(某个粒度的一个状态)。记录一个事物从开始，一直到当前状态的所有变化的信息2.拉链表的使用场景有一些表的数据量很大，比如一张用户表，大约10亿条记录，50个字段，这种表，即使使用ORC压缩，单张表的存储也会超过100G，在HDFS使用双备份或者三备份的话就更大一些。表中的部分字...

2019-10-13 18:10:54 1669 1

原创 hive的内部表外部表区别

hive的内部表外部表区别在本地创建数据文件并put到hdfs中#a.txt10 1520 2530 35hdfs dfs -put ./a.txt /user/samplecreate table tt1(a int,b int)row format delimited fields terminated by '\t'location ...

2019-10-13 13:44:46 191

原创 git的安装与基础使用

1.git简介Git是一个免费的开源分布式版本控制系统，可以快速高效地处理从小型到大型的项目。Git很容易学习，占用的空间很小，但是性能非常好。它超越了像Subversion、CVS、Perforce和ClearCase这样的配置管理工具，具有像廉价的本地分支、方便的准备区域和多个工作流这样的特性。2.git的优势官方文档3.git的安装git-windows下载地址安装的过...

2019-10-05 13:03:03 215

原创 hue安装(maven、ant编译)

Centos6.8安装HUEHUE 在编译时有两种方式:1.通过maven、ant编译 2.通过python编译（在centos6.5因为自身python为2.6.6版本和hue编译需要2.7版本会有一点小冲突，故采用1）两种方式都是在hue目录下 make apps，只是第一种方式要先配置maven、ant的环境而已注意：不要使用root 用户安装准备安装环境Centos6.8...

2019-10-04 14:30:26 519

原创解决linux安装jdk后 java -version版本不一致问题

修改/etc/profile将PATH中$ JAVA_HOME/bin移动到$PATH前面

2019-10-04 13:59:11 1066 1

原创 linux下python从2.6.6升级到2.7.5

python从2.6.6 升级到2.7.51.先确定自己装了wget 和 gccyum install wgetyum install gcc2.下载源码包wget https://www.python.org/ftp/python/2.7.5/Python-2.7.5.tgz3.解压下载的源码包 tar -zxvf Python-2.7.5.tgz -C./yuanma/ c...

2019-09-25 09:38:54 979

原创 flume组件详解与测试案例,安装

Flume概念:Flume是一种分布式、可靠且可用的服务，用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有健壮性和容错性，具有可调的可靠性机制和许多故障转移和恢复机制。它使用一个简单的可扩展数据模型，允许在线分析应用程序。架构:组件source：数据源组件,用于读取相应数据,并将数据传到channel中channel:管道，用于...

2019-09-22 11:35:45 1703 1

原创 hive的存储过程 hplsql配置

hive2.x自带hplsql如果用的hive1.x需要下载hplsql1.配置 hplsql-site.xml在hive的conf下新建 hplsql-site.xml 并添加以下内容<configuration><property> <name>hplsql.conn.default</name> <value&...

2019-09-22 10:36:17 1181

summary.md

summary1.md

summary2.md

空空如也