自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 cdh6.3.2部署过程发现的问题

通过telnet命令判定7182端口是否通,发现其他机器和server都不同,判断应该是防火墙的问题,果然发现是由于防火墙没有关闭的原因。很奇怪因为另外两个节点都没有问题,只有主节点有问题,离线包本身就是在主节点,因为虚拟机给的磁盘空间不够。1、安装完cdh之后发现7180页面打不开,查看agent日志发现报错信息。然后重新启动agent,问题解决。2、安装cdh的时候。

2022-10-29 21:55:53 979

原创 cdh启动spark-shell报错

安装好cdh和spark之后启动spark-shell报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x将这个勾选去掉就可以了

2022-05-14 16:05:56 405

原创 Linux nohup 与 &的区别

linux nohup与&的区别

2022-04-14 09:20:46 943

原创 linux远程到其他机器执行循环脚本

远程登录其他机器执行shell循环脚本

2022-04-13 16:08:22 1217

原创 pyspark sql中如何使用参数

pysparksql脚本中如何引入变量

2022-03-08 10:20:02 3442

原创 虚拟机将ip地址修改成静态的

1、点击虚拟网络适配器2、选择nat模式,修改子网ip为2的网段,点击应用3、点击nat设置,查看子网ip,子网掩码,网关ip等信息4、vim /etc/sysconfig/network-scripts/ifcfg-ens33bootproto修改成static,ipaddr是ip地址,gateway是网关地址,onboot为yes5、systemctl restart network重启网络服务6、验证能不能联网...

2022-02-13 20:11:04 4295

原创 spark 写入tidb 报错read-uncommitted is not supported

报错日志:Caused by: java.sql.SQLException: The isolation level ‘READ-UNCOMMITTED’ is not supported. Set tidb_skip_isolation_level_check=1 to skip this error解决方式:val tidb_url = ""//填写自己的tidburlval table_name = "aa"//要插入的tidb表val properties = new Properties

2021-06-28 16:53:43 1387

原创 idea快捷键

ctrl+alt+L:代码进行格式化ctrl+b:查看类或者方法的源码ctrl+alt+h:查看方法都在什么地方被引用按上下箭头可以进行选择看哪一个,f4可以跳进去进行查看,alt+8可以返回到列表alt+f7:同上,但是比上面的更详细选中方法或者类f11:将方法或者类加入bookmark;shift+f11查看所有的bookmark内容,ctrl+enter可以进行修改名称标记ctrl+shift+i:查看类的定义...

2021-04-08 13:55:45 288

转载 spark sql解析过程及底层原理

Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前,整个 SQL 、Spark ML、Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Execution 之上的,如下图所示:所以,正常的 SQL 执行先会经过 SQL Parser 解析 SQL,然后经过

2021-01-20 14:26:52 1385

原创 hive使用show databases报错

问题如下,进入hive之后使用show databases报错hive> show databases;FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient经过排查应该是没有将元

2021-01-10 14:06:15 5186

原创 sparksql使用hive元数据

一、若要把 Spark SQL 连接到一个部署好的 Hive 上,你必须把 hive-site.xml 复制到Spark 的配置文件目录中($SPARK_HOME/conf)。二、运行spark-sql的时候会报错需要指定mysql驱动器位置spark-sql --driver-class-path /home/hadoop/apps/hive/lib/mysql-connector-java-5.1.40-bin.jar成功启动!...

2021-01-09 19:43:05 491

原创 spark内置函数

spark内置函数聚合函数窗口函数数组函数map函数时间函数json函数

2020-11-05 23:35:44 1412 1

原创 idea自动显示scala类型

idea工具是真强大,我们在写scala的时候有的时候为方便就不会写scala的类型,但是有的时候又想要看最后scala的类型,这个就很麻烦。我们可以通过设置idea让工具类帮助我们来自动显示。步骤如下点击settings然后按照1,2,3的步骤点击,将第四步的勾选上就可以了。我用的是idea18版的,不同版本的配置位置可能会有点区别。效果图:非常棒!...

2020-08-29 21:33:05 2507

原创 flink table 1.11 scala版 消费kafka处理之后打入kafka

package tableimport org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment}import org.apache.flink.table.api.bridge.scala.{StreamTableEnvironment}import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Table,_}import org.apache.f

2020-07-31 21:45:11 792

原创 flink table 需要导入的隐式转换

参考官网https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/common.htmlImplicit Conversion for ScalaThe Scala Table API features implicit conversions for the DataSet, DataStream, and Table classes.These conversions are enabled by importi

2020-07-31 21:26:34 405

原创 flink table中(Expression... fields)无法应用

在flink table中调用转换算子有两种方式一种是string,一种是expression,但是按照源码提示操作却报错原因:缺少隐式转换在这导入依赖包的时候添加隐式转换就可以了

2020-07-31 18:25:17 2421 1

原创 flink报错java.lang.IlleagalStateException: No ExecutorFactory found to execute the application

idea中flink的代码再1.10版本的时候可以正常运行,但是当把flink版本改成1.11的时候运行就报错很是郁闷,究其原因是少依赖,1.11版本需要引入flink-clients 依赖具体看flink官网https://ci.apache.org/projects/flink/flink-docs-master/release-notes/flink-1.11.html#reversed-dependency-from-flink-streaming-java-to-flink-client-f

2020-07-25 00:00:12 2609

原创 scala编辑的flink代码编译期报错

代码编辑完之后没有文档,在idea上运行时出现以下错误问题原因:idea中的scala版本是2.12,但是maven中的依赖用的是2.11版本的。解决办法:将两个版本改一致就可以了

2020-07-24 23:12:03 233

原创 org.apache.flink.table.api.scala.StreamTableEnvironment not found

原因没有导入java依赖只有scala依赖是不行的

2020-07-20 20:16:11 2622 1

原创 vmware虚拟机连接不上外网

vmware虚拟机虚拟机安装之后ping不通外网1、查看虚拟机的网段2、修改虚拟机子网地址Workstation=》编辑=》虚拟网络编辑器将子网IP修改成和虚拟机一个网段

2020-07-20 16:05:27 1580

原创 oracle中如何查询的时候去掉字段的换行键和回车键

oracle中SQl语句 select replace(replace(name,char(10),’’),char(13),’’) from people 这个什么意思?char(10)换行键,char(13)回车键,就是把name字段中的换行跟回车去掉

2020-05-12 16:12:02 619

原创 pip install 总是下载出错

pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.You are using pip version 10.0.1, however version 20.1 is available.You ...

2020-04-30 23:15:55 1001

原创 com.mysql.cj.exceptions.InvalidConnectionAttributeException

jdbc连接数据库的时候报如下错误:com.mysql.cj.exceptions.InvalidConnectionAttributeException: The server time zone value ‘�й���׼ʱ��’ is unrecognized or represents more than one time zone. You must configure either...

2020-03-15 12:58:44 482

原创 spark作业通过yarn的cluster方式提交如何查看打印结果

通过yarn的web页面找到applicationId如图:然后通过yarn logs -applicationId application_1577551789122_0001命令就可以查看打印结果了

2020-01-07 09:00:55 1554

原创 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

hive第一次安装成功之后一直可以正常使用,后来突然出现以下的问题:(可能自己动了hive元数据存储的库了)通过hive命令可以正常进入hive的命令行,但是当输入show databases命令时会报如下错误。FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.Runtim...

2020-01-06 15:48:22 440

原创 spark中的宽依赖与窄依赖

spark中的宽依赖与窄依赖区分宽依赖和窄依赖的原因是:如果子RDD分区的数据丢失,需要从父RDD分区进行重新计算,如果是窄依赖就直接计算对应的父RDD分区内的数据就可以了,不用计算所有的父RDD分区内的数据。由此总结推断:如果子RDD分区内的数据可以通过固定的一个或者多个父RDD分区计算得出结果那就是窄依赖,如果不能那就是宽依赖。...

2019-12-24 14:37:53 210

原创 kettle在linux上运行

1.在windows系统上用kettle生成转换和作业,运行成功之后可以放到linux上运行注意:一定确保在Windows上是能正确运行的2.找到kettle生成的转换文档,传入到linux系统中用pan.sh运行测试能否成功cd data-integration目录下能够找到pan.shll drwxrwxr-x 2 hadoop hadoop 4096 Jul 31 19...

2019-08-28 18:53:07 2167

原创 hive内置函数总结

hive内置函数总结一、关系运算:等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive> select 1 from lxw_dual where 1=1;1不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式...

2019-08-22 11:29:39 310

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除