自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (8)
  • 收藏
  • 关注

原创 git仓库整体迁移

git仓库迁移

2023-03-06 10:30:55 403

原创 git创建空分支

Git中创建分支,是必须有一个父节点的,也就是说必须在已有的分支上来创建新的分支,如果你的工程已经进行了一段时间,这个时候是无法创建空分支的。解决方法:使用 git checkout的–orphan参数:git checkout --orphan sqd该命令会生成一个叫sqd的分支,该分支会包含父分支的所有文件。但新的分支不会指向任何以前的提交,就是它没有历史,如果你提交当前内容,那么这次提交就是这个分支的首次提交。删除所有文件:我们想要空分支,所以我们需要把当前内容全部删除,用git命令g

2020-11-30 14:51:51 843

原创 git提交 有些文件一直提交不了

$ git add .$ git commit -m ‘MSG’$ git push

2020-11-24 15:30:07 1825

原创 python程序在命令行执行提示ModuleNotFoundError: No module named ‘XXX‘ 解决方法

在报错的模块中添加:import sysimport oscurPath = os.path.abspath(os.path.dirname(__file__))rootPath = os.path.split(curPath)[0]sys.path.append(rootPath)

2020-09-11 15:49:46 592

原创 git 将master分支合到自己的开发分支

背景:一般开发自己的分支都是从最新的master上拉取,但中间master会有改动,此时需要将最新的master合到自己的分支中命令:1. 查看当前的分支,星号标识为当前分支;(如果查询结果有master分支,则跳到第4步)1 git branch2.查看该工程所有的分支,星号标识为当前分支1 git branch -a3.copy一个master分支(步骤...

2020-04-26 11:31:30 693

原创 hive使用mapjoin

hive 显示使用mapjoinhive> set hive.auto.convert.join=true;hive> set hive.auto.convert.join;hive.auto.convert.join=truehive> SELECT– 可以显示的指定如下这一行mapjoin 关键词。/+mapjoin(b)/a.date,a.page_id,...

2020-03-19 16:06:38 705

原创 hbase 预分区及自动拆分

HBASE在创建表的时候,会自动为表分配一个Region,当一个Region过大达到默认的阈值时(默认10GB大小),HBase中该Region将会进行split,分裂为2个Region,以此类推。表在进行split的时候,会耗费大量的资源,频繁的分区对HBase的性能有巨大的影响。所以,HBase提供了预分区功能,即用户可以在创建表的时候对表按照一定的规则分区。假设我们初始给它10个Re...

2020-03-04 17:30:33 2498

原创 Kafka源码中的Producer Record定义

1.ProducerRecord 含义: 发送给Kafka Broker的key/value 值对2.内部数据结构:– Topic (名字)– PartitionID ( 可选)– Key[( 可选 )– Value3.生产者记录的发送逻辑:<1> 若指定Partition ID,则PR被发送至指定Partition<2> 若未指定Partition ID,...

2020-03-04 17:01:41 1195

原创 hive传参及执行命令

三种传参:1 hiveconfhive --hiveconf varage=‘19’ --database test -e ‘select * from person where age=${hiveconf:varage}’;1.1 可以传参必须用加前缀的方式取值;1.2 可覆盖hive-site.xml(hive-default.xml)中的参数值,设置参数,会话级别:hive --...

2020-03-04 15:35:47 865

原创 spark并发度控制

并行度可以通过如下三种方式来设置,可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数,增加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。1 在会产生shuffle的操作函数内设置并行度参数,优先级最高1.1 testRDD.groupByKey(24)1.2 val rdd2 = rdd1.reduceByKey(+ ,10)val ...

2020-03-03 17:07:23 1441 1

原创 spark变量广播

使用广播变量,每个Executor的内存中,只驻留一份变量副本, 而不是对每个 task 都传输一次大变量(一个executor可以执行多个task),省了很多的网络传输, 对性能提升具有很大帮助, 而且会通过高效的广播算法来减少传输代价。使用广播变量的场景很多, 我们都知道spark 一种常见的优化方式就是小表广播, 使用 map join 来代替 reduce join, 我们通过把小的数据...

2020-03-03 15:58:08 484

原创 Spark Streaming + Kafka 的 offset 管理方法

常见offset管理方法介绍1 checkpointsSpark Streaming的checkpoints是最基本的存储状态信息的方式,一般是保存在HDFS中。但是最大的问题是如果streaming程序升级的话,checkpoints的数据无法使用,所以几乎没人使用。2 ZookeeperSpark Streaming任务在启动时会去Zookeeper中读取每个分区的offsets。如果...

2020-03-03 14:28:04 937

原创 linux清理缓存命令

清理缓存的命令echo 1 > /proc/sys/vm/drop_cachesecho 2 > /proc/sys/vm/drop_cachesecho 3 > /proc/sys/vm/drop_caches

2020-03-01 11:07:28 602

15二分查找(上):如何用最省内存的方式实现快速查找功能?.pdf

15二分查找(上):如何用最省内存的方式实现快速查找功能?.pdf

2021-05-05

16二分查找(下):如何快速定位IP对应的省份地址?.pdf

16二分查找(下):如何快速定位IP对应的省份地址?.pdf

2021-05-05

11排序(上):为什么插入排序比冒泡排序更受欢迎?.pdf

11排序(上):为什么插入排序比冒泡排序更受欢迎?.pdf

2021-05-05

12排序(下):如何用快排思想在O(n)内查找第K大元素?.pdf

12排序(下):如何用快排思想在O(n)内查找第K大元素?.pdf

2021-05-05

13线性排序:如何根据年龄给100万用户数据排序?.pdf

13线性排序:如何根据年龄给100万用户数据排序?.pdf

2021-05-05

14排序优化:如何实现一个通用的、高性能的排序函数?.pdf

14排序优化:如何实现一个通用的、高性能的排序函数?.pdf

2021-05-05

10递归:如何用三行代码找到“最终推荐人”?.pdf

10递归:如何用三行代码找到“最终推荐人”?.pdf

2021-05-05

09队列:队列在线程池等有限资源池中的应用.pdf

09队列:队列在线程池等有限资源池中的应用.pdf

2021-05-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除