自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (5)
  • 收藏
  • 关注

原创 spark常用命令

查看报错日志:yarn logs applicationIDspark2-submit --master yarn --class com.hik.ReadHdfs test-1.0-SNAPSHOT.jar进入$SPARK_HOME目录,输入bin/spark-submit --help可以得到该命令的使用帮助。hadoop@wyy :/app/hadoop/spark100$ bin/spark-submit --helpUsage: spark-submit [options] <ap

2021-05-17 14:05:42 1610

原创 hadoop常用命令

1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。2、单进程启动。sbin/start-dfs.sh--------------- sbin/hadoop-daemons.sh --config .. --hostname .. start namenode ... sbin/hadoop-daemons.sh --conf...

2021-05-17 14:02:01 301

原创 hive常用命令

hive -e "select * from ..." > /tmp/datahive -f 文件INSERT OVERWRITE TABLE employeesPARTITION (country = 'US', state = 'OR')SELECT * FROM staged_employees seWHERE se.cnty = 'US' AND se.st = 'OR';假如需要对多个分区执行,需要扫描表多次FROM staged_employees seINSERT .

2021-05-11 11:29:42 171

原创 sql常用函数

find:查找文件:find ./actions/ -name Constract.php查找包含leyangjun字母的文件:find /etc -name '*leyangjun*'查找srm开头的文件:find/etc -name 'srm*'我们要在/usr目录及子目录下查找文件名包含“leyangjun”关键字的文件:find /usr -print |grep leyangjungrep:在Constract.php文件中查找字符leyangjun的行:grep 'leyangjun

2021-05-11 09:47:53 129

原创 kafka常用命令

windows:1.启动zk zkserver2.启动Kafka .\bin\windows\kafka-server-start.bat .\config\server.properties3.创建主题 kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic OUT_TOPIC4. 列出主题kafka-topic.bat -...

2021-05-11 09:45:48 1081

原创 sparkSQL多条记录列转行

val view = ss.sql( """ | select field1,concat_ws(",",collect_set(field2)) as convert_field | from t1 | where field1 is not null | group by field1 |""".stripMargin)

2021-05-10 11:20:30 180

原创 sparkSQL根据一个字段分隔转多行

代码: val row2columnStr = """ |select * from temp_view |lateral view explode(split(field, ',')) tmpTable as result_view """.stripMargin

2021-05-10 10:55:19 586

原创 spark读写kudu2

maven依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/ma

2021-05-10 10:25:32 195

原创 java RestHighLevelClient方式操作es

之前有写过一篇文章,介绍使用继承ElasticsearchRepository类或者使用ElasticSearchTemplate的方式进行CRUD,但是因为API更新不及时,逐渐不用了。目前还是推荐使用官方的API,即RestHighLevelClient的方式查询。使用过程中遇到一些坑,记录下maven依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifact

2020-12-07 11:37:29 2525

原创 Connection reset by peer错误解决,亲测好使

查询时后台服务器报错如下:​2020-06-29T10:02:29.110+08:00 ERROR [http-nio-8048-exec-8] [c.h.idatafusion.interceptor.GlobalExceptionHandler:91] [0x0e509999] - 0x0e509999org.apache.catalina.connector.ClientAbortException: java.io.IOException: Connection reset by pee

2020-06-29 15:41:14 10431 1

原创 sparkSQL行转列,列转行

在用spark进行数据处理过程中,避免不了行转列和列传行的操作,特此记录:1.列传行:这里举的例子是certificate_id ,telephone_number 每个身份证号可能对应多个手机号码df.createTempView("tmp") val result = sparkSession.sql( """ | select certifi...

2020-04-14 16:01:46 1947

原创 sparkStreaming读kafka

windows环境本地起kafka producer进行测试,windows环境安装启动kafka可参照这篇博客:https://blog.csdn.net/shenyanwei/article/details/90374859代码如下:import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.ka...

2020-01-10 09:31:15 172

原创 spark读写Hbase数据

计算结果数据需要写入Hbase,特此记录首先贴出hbase需要的maven依赖<hbase.version>1.2.3</hbase.version> <dependency> <groupId>org.apache.hbase</groupId> <artif...

2019-12-05 16:45:34 245

原创 java常用日期转换工具

项目开发经常需要日期转换,发现java.time包的API很好用,特此记录import java.text.SimpleDateFormat;import java.time.LocalDate;import java.time.ZoneId;import java.time.format.DateTimeFormatter;import java.util.Calendar;im...

2019-12-02 11:19:25 197

原创 spark读写kudu

package sparkUtilimport org.apache.kudu.spark.kudu.KuduContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkKudu { //kuduMasters and tableName val kud...

2019-09-24 22:39:25 2354 2

原创 spark读写Hive

package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkHive { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf() sp...

2019-09-24 22:36:18 184

原创 spark读写hdfs

package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}object SparkHDFS { def main(args: Array[String]): Unit = { val sparkConf = new SparkCo...

2019-09-24 22:24:07 426

原创 spark读写ES

直接上代码:package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport org.elasticsearch.spark.sql.{EsSparkSQL, SparkDataFrameFunctions}object SparkES { def ...

2019-09-24 22:23:07 1019

原创 spark将Rdd转成list和set

有需求要将Rdd转成list,上网查资料实现都很复杂,后来发现其实是非常简单的,collect()完已经就是Array了,看源码 /** * Return an array that contains all of the elements in this RDD. * * @note This method should only be used if the resu...

2019-08-21 22:53:07 13255 3

原创 Spark读取kudu,将Row类型Rdd转成其它类型

import org.apache.kudu.spark.kudu.KuduContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport scala.collection.mutable.ArrayBufferobject Spark_kudu { val kuduM...

2019-08-21 22:31:02 1632

原创 Spark算子

Transformations转换算子Transformations类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey等。Transformations算子是延迟执行,也叫懒加载执行。filter过滤符合条件的记录数,true保留,false过滤掉。map将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。特点:输入一条,输出...

2019-08-11 23:05:06 95

原创 Spark cache,persist,checkpoint区别与联系

控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。cache默认将RDD的数据持久化到内存中。cache是懒执行。注意:chche () = pers...

2019-08-11 17:36:33 437

转载 hadoop常用命令总结

1、启动hadoopstart-all.sh等价于start-dfs.sh + start-yarn.sh3、常用命令 1、查看指定目录下内容 hdfs dfs –ls [文件目录] hdfs dfs -ls -R / //显式目录结构 eg: hdfs dfs –ls /user/wangkai.pt 2...

2019-08-11 17:26:19 297

原创 windows下搭建spark开发环境

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m...

2019-07-09 19:57:43 269 1

原创 swagger

今天发现了一个问题,不知道是不是swagger的bug程序中字段如下:@ApiModelProperty(value = "结束时间", dataType = "date")@JsonFormat(pattern = "yyyy-MM-dd HH:mm:ss", timezone = "GMT+8")private Date endTime;启动swagger后Model Schem...

2019-07-08 20:59:11 127

原创 ElasticSearch总结

这段时间一直在用ES,主要对在SpringBoot中Java对ES的CRUD做下总结,分为两种方式继承ElasticsearchRepository类​​​​​​采用这种方式​具体创作实体类和大部分CRUD可以参考下面这篇文章,讲的比较详细,本文主要讲一下另一种方式。https://blog.csdn.net/chen_2890/article/details/83895646有个需...

2019-07-06 10:31:07 550 1

原创 数据仓库,ETL,kudu,impala,pg,elasticsearch,kettle

最近几天实习了解一些基础概念然后再理解业务,主要有以下:数据仓库,ETL,kudu,impala,pg,elasticsearch,kettle以后的工作应该是围绕数据展开的,1.数据源-> 2.ETL -> 3.数据仓库存储与管理-> 4.OLAP -> 5.BI工具数据仓库主要与数据库相对应,是OLAP和OLTP的关系ETL一句话概括就是:将数据从O...

2019-06-01 16:46:09 928

高性能并发业务Spark(1).pdf

高性能并发业务Spark(1).pdf

2021-05-17

高性能并发业务.pdf

高性能并发业务.pdf

2021-05-17

MybatisCodeHelperNew-2.8.9-183-204.zip

MybatisCodeHelperNew-2.8.9-183-204.zip

2021-05-17

settings.jar

settings.jar

2021-05-17

idea设置jar包

适合自己的idea配置文件,下载直接导入就行了,特此保留

2018-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除