qq_28069031-CSDN博客

Git中创建分支，是必须有一个父节点的，也就是说必须在已有的分支上来创建新的分支，如果你的工程已经进行了一段时间，这个时候是无法创建空分支的。解决方法：使用 git checkout的–orphan参数:git checkout --orphan sqd该命令会生成一个叫sqd的分支，该分支会包含父分支的所有文件。但新的分支不会指向任何以前的提交，就是它没有历史，如果你提交当前内容，那么这次提交就是这个分支的首次提交。删除所有文件：我们想要空分支，所以我们需要把当前内容全部删除，用git命令g

2020-11-30 14:51:51 883

原创 git提交有些文件一直提交不了

$ git add .$ git commit -m ‘MSG’$ git push

2020-11-24 15:30:07 1889

原创 python程序在命令行执行提示ModuleNotFoundError: No module named ‘XXX‘ 解决方法

在报错的模块中添加：import sysimport oscurPath = os.path.abspath(os.path.dirname(__file__))rootPath = os.path.split(curPath)[0]sys.path.append(rootPath)

2020-09-11 15:49:46 653

原创 git 将master分支合到自己的开发分支

背景：一般开发自己的分支都是从最新的master上拉取，但中间master会有改动，此时需要将最新的master合到自己的分支中命令：1. 查看当前的分支，星号标识为当前分支；（如果查询结果有master分支，则跳到第4步）1 git branch2.查看该工程所有的分支，星号标识为当前分支1 git branch -a3.copy一个master分支（步骤...

2020-04-26 11:31:30 738

原创 hive使用mapjoin

hive 显示使用mapjoinhive> set hive.auto.convert.join=true;hive> set hive.auto.convert.join;hive.auto.convert.join=truehive> SELECT– 可以显示的指定如下这一行mapjoin 关键词。/+mapjoin(b)/a.date,a.page_id,...

2020-03-19 16:06:38 764

原创 hbase 预分区及自动拆分

HBASE在创建表的时候，会自动为表分配一个Region，当一个Region过大达到默认的阈值时（默认10GB大小）,HBase中该Region将会进行split，分裂为2个Region，以此类推。表在进行split的时候，会耗费大量的资源，频繁的分区对HBase的性能有巨大的影响。所以，HBase提供了预分区功能，即用户可以在创建表的时候对表按照一定的规则分区。假设我们初始给它10个Re...

2020-03-04 17:30:33 2923

原创 Kafka源码中的Producer Record定义

1.ProducerRecord 含义: 发送给Kafka Broker的key/value 值对2.内部数据结构：– Topic （名字）– PartitionID ( 可选)– Key[( 可选 )– Value3.生产者记录的发送逻辑:<1> 若指定Partition ID,则PR被发送至指定Partition<2> 若未指定Partition ID,...

2020-03-04 17:01:41 1292

原创 hive传参及执行命令

三种传参：1 hiveconfhive --hiveconf varage=‘19’ --database test -e ‘select * from person where age=${hiveconf:varage}’;1.1 可以传参必须用加前缀的方式取值；1.2 可覆盖hive-site.xml（hive-default.xml）中的参数值，设置参数，会话级别：hive --...

2020-03-04 15:35:47 943

原创 spark并发度控制

并行度可以通过如下三种方式来设置，可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数，增加任务的并行度，充分利用集群机器的计算能力，一般并行度设置为集群CPU总和的2-3倍。1 在会产生shuffle的操作函数内设置并行度参数，优先级最高1.1 testRDD.groupByKey(24)1.2 val rdd2 = rdd1.reduceByKey(+ ,10)val ...

2020-03-03 17:07:23 1616 1

原创 spark变量广播

使用广播变量，每个Executor的内存中，只驻留一份变量副本，而不是对每个 task 都传输一次大变量（一个executor可以执行多个task），省了很多的网络传输，对性能提升具有很大帮助，而且会通过高效的广播算法来减少传输代价。使用广播变量的场景很多，我们都知道spark 一种常见的优化方式就是小表广播，使用 map join 来代替 reduce join，我们通过把小的数据...

2020-03-03 15:58:08 526

原创 Spark Streaming + Kafka 的 offset 管理方法

常见offset管理方法介绍1 checkpointsSpark Streaming的checkpoints是最基本的存储状态信息的方式，一般是保存在HDFS中。但是最大的问题是如果streaming程序升级的话，checkpoints的数据无法使用，所以几乎没人使用。2 ZookeeperSpark Streaming任务在启动时会去Zookeeper中读取每个分区的offsets。如果...

2020-03-03 14:28:04 1013