自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (3)
  • 收藏
  • 关注

原创 HIVE常见面试题

HIVE常见面试题hive内部表与外部表的区别?1、未被external修饰的是内部表(managed table),被external修饰的为外部表(external table);2、内部表数据由Hive自身管理,外部表数据由HDFS管理;3、内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse.

2020-12-11 15:24:56 286

原创 Superset介绍及使用说明

Superset介绍及使用说明Superset简介Apache Superset是Airbnb开源的数据挖掘平台。支持丰富的数据源连接,多种可视化方式,并能够对用户实现细粒度的权限控制。该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询等。功能丰富的数据可视化集易于使用的界面,用于浏览和可视化数据创建和共享仪表板与主要身份验证提供程序(数据库,OpenID,LDAP,OAuth和REMOTE_USER通

2020-07-30 14:30:13 3537

原创 Presto上使用SQL遇到的一些坑

Presto的是什么?优势是什么呢?从官方文档中我们了解到Presto是一个分布式SQL查询引擎,用于查询分布在一个或多个不同数据源中的大数据集。千万不要以为Presto可以解析SQL,那么Presto就是一个标准的数据库。Presto被设计为数据仓库和数据分析产品:数据分析、大规模数据聚集和生成报表。这些工作经常通常被认为是线上分析处理操作。所以说,当公司业务有跨库分析时(一般情况是,业务数据库分布在各个部门),一些数据需要配合其他部门的数据进行关联查询,这个时候可以考虑Presto。但是目前,对

2020-07-17 09:32:15 1237

原创 两种找频繁项集的方法

两种找频繁项集的方法Apariori算法:主要通过限制候选产生发现频繁项集使用的是频繁项集的先验原理是一种称为逐层搜索的迭代方法,其中k项集用于搜索(k+1)项集使用步骤:1、扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找到频繁1项集 L12、使用L1&L2产生候选2项集C23,C2计数、4、剪枝(根据最小支持度)FP树表示法自底向上方式探索树逐个读入事务...

2018-11-29 10:38:58 4609

原创 HBASE中list命令报错问题

HBASE中list命令报错问题1、报错如下:ERROR: Can’t get master address from ZooKeeper; znode data == null2、master is initializing解决方案:先启动zookeeper,再启动集群,启动Hbase时,首先启动HRegionserver,然后再启动HMaster,(重启集群及hbase也可以)...

2018-11-13 14:25:59 2166

原创 圆形柱状对比图

圆形柱状图对比图怎么做呢?直接上思路

2022-06-30 11:33:14 702 1

原创 Excel中用REPT函数制作图表

Excel中用REPT函数制作图表这些图表都是用REPT函数制作成的,而且是一键生成的。可以用REPT函数做多种图表包括但不限于:REPT制作条形图REPT制作漏斗图REPT制作蝴蝶图REPT制作柱状图REPT制作甘特图图形的大小由字体大小决定。想变瘦,就用小号字体;想变胖,就用大一些的字体。REPT制图要点之图表的样子图表的样子由REPT的第一个参数和字体决定,如果你不喜欢长条的矩形,也可以用Wingdings字体填充各种各样的符号,如小人、星星、小车、胜利的手势、笑脸等。做图思路利用

2022-06-30 10:52:42 268

原创 数据库sql语句多表连接查询+group by 分组的使用

数据库sql语句多表连接查询+group by 分组的使用今天写sql语句的时候,需要从两个表中查出关联的数据,并且需要分组第一次写出来的代码如下百度了好长时间,发现了问题所在先给出group by的基本用法group by可以根据给定数据列的每个成员对查询结果进行分组统计,最终得到一个汇总表select字句中的列名必须为分组列或列函数.列函数对于group by字句定义的每个组返回一个结果group by一般和聚合函数一使用才有意义,比如count,sum,avg等,使用group by 的

2021-01-21 17:49:29 4494

原创 presto和hive的区别

Hive是把一个查询转化成多个MapReduce任务,然后一个接一个执行。执行的中间结果通过对磁盘的读写来同步。然而,Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。经过测评,presto的平均性能是hive的十倍。presto的优点:数据源具有完全解耦,高性能,以及对ansi sql的支持特性,使得presto在etl,实时数据计算、as-hoc查询和实时数据流分析等多个场景中能够发挥重要的做用。

2020-07-17 14:58:14 8038

原创 superset连接hive源出现的问题

superset连接hive源出现的问题解决办法:pip3 install PyHive-0.6.2.tar.gz解决办法:pip install thrift解决办法:pip install sasl解决办法:pip install thrift-sasl解决办法:yum install cyrus-sasl-plain cyrus-sasl-devel cyrus-sasl-gssapi...

2020-06-30 14:16:38 832

原创 克隆虚拟机

virt-clone -o centos7.4-model -n hdp-191 -f /var/lib/libvirt/images/hdp-191.qcow2centos7.4是要复制的虚拟机名称hdp-191是克隆出来的虚拟机的名称改过以后需要更改ip地址vi /etc/sysconfig/network-scripts/ifcfg-eth0...

2019-10-09 08:51:01 139

原创 --形成表空列语句,形成sql语句以后再执行,可以获取列为null字段

–形成表空列语句,形成sql语句以后再执行,可以获取列为null字段select ‘select fieldfrom (select field,null_countfrom (select ’ ||wm_concat(’(select count (1) from YOUR_TABLE b where b.’|| column_name || ’ is not null )’ || co...

2019-10-09 08:48:45 153

原创 sql语句经验总结

一个程序员写出的sql性能是否优化往往是衡量公司程序员的技术水平的标准总结:1.不论一个sql中涉及到多个表,每次都用两个表(结果集)操作,得到新的结果后,再和下一个表(结果集)操作。2. 避免在select f1,(select f2 from tableB )… from tableA 这样得到字段列。直接用tableA和tableB关联得到A.f1,B.f2就可以了。3.避免隐含的类...

2019-03-27 14:33:13 203

原创 SparkRDD

算子分类一、Transformation概念:字面意思就是进行转换,将rdd有一个形态转化成另一个形态常见Transformation算子flatmap:将行拆分为单词map:最常用的算子,将原rdd的形态转化为另一种形态filter:过滤sample:根据给定的随机算子seed,随机抽样出数量为frac的数据union:返回一个新的数据集,由元数据集和参数联合而成,该union...

2019-01-15 16:44:13 260

原创 SparkCore执行方式核心知识

一、Spark作业调度方式1、Local测试或实验性质的本地运行模式Local[N]是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是一个线程(该线程有一个core)2、standalone:指定节点使用sparksubmit提交任务的时候(包括idea或其他开发工具...

2019-01-15 11:19:30 178

原创 SparkSql优化

1、避免用in和not in解决方案:用exists和not exists代替用join代替效率:not in 慢是因为not in 不走索引2、in 会导致数据倾斜3、大表join小表策略:将小表广播(brodcast)参数:spark.sql.autoBroadcastJoinThreshold 默认值10485760(10M),当小表或df的大小小于此值,Spark会自动...

2019-01-14 16:19:42 523 1

原创 Scala的过程、Lazy值和异常

过程在Scala中,定义函数时,如果函数体直接包裹在了花括号里面,而没有使用=连接,则函数的返回值类型就是Unit。这样的函数就被称之为过程。过程通常用于不需要返回值的函数。 过程还有一种写法,就是将函数的返回值类型定义为Unit。def sayHello(name: String) = "Hello, " + namedef sayHello(name: String) { print("...

2019-01-14 15:12:10 233

原创 hbase的读写数据流程、设计原则以及时间戳反转

1.1、HBase的读数据过程1、客户端通过 zookeeper 以及-root-表和.meta.表找到目标数据所在的 regionserver(就是数据所在的 region 的主机地址)(0.98版本以前,0.98及以后没有-ROOT-表)2、联系 regionserver 查询目标数据3、 regionserver 定位到目标数据所在的 region,发出查询请求4、 region ...

2019-01-11 17:46:39 1630

原创 SparkStreaming的运行流程

1、客户端提交作业后,启动Driver,Driver是Spark作业的Master(也就是通过Driver来启动Receiver,定时去启动任务的处理,注意的是,驱动启动任务会受前一个任务执行的影响。也就是前一个任务没有执行完成后,是不会启动后边的任务的。 所以,注意你的streaming的执行时间,绝对不要超过Recive数据的时间)2、每个作业包含多个Executor,每个Executor...

2019-01-11 17:33:58 691

原创 spark术语及理解

1.Application基于spark的用户程序,包含了一个driver program 和集群中多个 executor,一定是通过一个有main方法的类执行的。2.Driver Program运行application的main()函数并自动创建SparkContext。通常SparkContext 代表driver program,说白了,就是运行程序中main方法的进程,这就是dri...

2019-01-11 17:05:23 393

原创 SPARK的时间函数

SPARK的时间函数package testimport java.util.Dateimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/**Created by fanxiaoxia on 2018/11/28.*/object SPARKDATE {Class.forName(...

2018-11-28 19:05:02 511

原创 oracle中timestamp转成date类型

oracle中timestamp转成date类型由于要利用数据量比较大,利用spark在集群中进行表关联并创建,并且需要进行时间的加减,所以创建出的表类型是TIMESTAMP类型(2017-10-03 09:40:06:000000) 无意间看到一种方法,可以把TIMESTAMP类型,转换为date类型,就是把TIMESTAMP类型的这个字段+0,就会自动转换为date类型(2017-10-03...

2018-11-27 09:32:33 813

原创 sqoop 从oracle导数据到hive遇到的问题

sqoop 从oracle导数据到hive遇到的问题应用sqoop导数据到hive./sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.1.238:1521:orcl --username test --password test --table S_24_56_ONE_RES --hive-database myh...

2018-11-15 15:52:39 912

原创 QGis连接oracle

ORACLE 数据在QGis中展示1.将ORACLE数据转换成csv格式导出2.在QGis中添加图层-添加文本数据图层3.选择刚才导出的csv格式的数据,选择横纵坐标(选择为LNG/LAT)4.几何坐标参照系选择 WGS-845.选择QGIS自带的OpenStreetMap图层6.需要选择泰森多边形也可以再选择注意:当横纵坐标选反时,以及几何坐标参照系选错时,点在地理上的位置不对...

2018-10-20 15:26:47 2040

原创 spark大数据处理技术、 应用与性能优化

spark大数据处理技术、 应用于性能优化**spark简介** spark是什么 基于内存的分布式实时计算框架,保证高容错高可伸缩性 与hadoop的关系 hadoop是mapreduce以及hdfs等基础加上hive,hbase,等上层的生态关系,spark是mapreducce的替代方案,sparksql是hive的替代方案,sparkstreaming是storm的替代方...

2018-10-10 08:51:32 700

superset集成echarts.docx

Apache Superset集成Echarts 参考https://blog.csdn.net/tancongcong/article/details/91991051

2020-07-17

oracle客户端安装.docx

linux下oracle数据库客户端的安装,一、首先Oracle官网下载安装包:,二、使用rpm -ivh [包名] 进行安装,三、创建文件夹,四、创建监听文件,并添加内容,五、配置环境变量 ,六、使配置完的环境变量生效,七、连接数据库测试

2019-09-06

spark大数据处理技术、 应用与性能优化

spark大数据处理技术、 应用与性能优化 spark工作机制 spark调度与任务分配模块

2018-10-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除