dijuan6962
码龄9年
关注
提问 私信
  • 博客:4,934
    4,934
    总访问量
  • 暂无
    原创
  • 1,659,557
    排名
  • 0
    粉丝
  • 0
    铁粉
  • 加入CSDN时间: 2016-03-27
博客简介:

dijuan6962的博客

查看详细资料
  • 原力等级
    当前等级
    0
    当前总分
    0
    当月
    0
个人成就
  • 获得0次点赞
  • 内容获得0次评论
  • 获得0次收藏
创作历程
  • 17篇
    2019年
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

hive大小表join性能优化

当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。大小表join时,将小表放在前面,会将小表进行缓存。mapjoin将小表放入内存,在map端和大表逐一匹配,省去reduce操作转载于:https://...
转载
发布博客 2019.09.03 ·
389 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

yarn的clinet和cluster模式区别

1、你要切换到yarn-cluster或者yarn-client模式,很简单,将我们之前用于提交spark应用程序的spark-submit脚本,加上--master参数,设置为yarn-cluster,或yarn-client,即可。如果你没设置,那么,就是standalone模式。2、yarn集群分为主节点和从节点,一个主节点是ResourceManager(RM),多个从节点是No...
转载
发布博客 2019.09.19 ·
223 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive中的列转行和行转列

https://www.cnblogs.com/zzhangyuhang/p/9791795.htmlhttps://www.cnblogs.com/blogyuhan/p/9274784.html列转行:user_id order_id104399 1715131104399 2105395104399 1758844104399 9...
转载
发布博客 2019.08.29 ·
200 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive UDF,UDAF,UDTF函数区别

udf:一进一出udaf:多进一出,聚合函数(min/max/count/)udtf:一进多出,later view explore转载于:https://www.cnblogs.com/18800105616a/p/11430191.html
转载
发布博客 2019.08.29 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive中的排序函数

order by 只有一个reduce 实现全局排序sort by 只有一个reduce时功能跟order by一样实现全局排序,reduce有多个时实现每个reduce局部排序distribute by和sort by结合使用实现分组局部排序cluster by的功能就是distribute by和sort by相结合转载于:https://www.cnblogs.co...
转载
发布博客 2019.08.29 ·
405 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive多行变单行函数collect_set和collect_list

http://blog.sina.com.cn/s/blog_7e04e0d00102xvnk.htmlselect user,concat_ws(',',collect_set(concat(order_type,'(',order_number,')'))) order from user group by user.user转载于:https://www.cnblogs.c...
转载
发布博客 2019.08.29 ·
256 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink sql

flink window聚合例子:1.为了持续的监测城市的交通流量,计算每个区域每5分钟的车辆数。我们只关心纽约的区域交通情况,并且只关心至少有5辆车子进入的区域。TUMBLE(rideTime,INTERVAL '5' MINUTE)的使用toAreaID,isInNYC 注册的udf函数select toAreaID(lon,lat), TUMBLE_END(rideTi...
转载
发布博客 2019.08.22 ·
138 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive group sets技术使用

group sets相当于多个group by 和union的结合使用转载于:https://www.cnblogs.com/18800105616a/p/11428066.html
转载
发布博客 2019.08.29 ·
331 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于用户的协同过滤算法

下面讲解的链接https://blog.csdn.net/shf1730797676/article/details/97100815基本思路:当用户A需要个性化推荐的时候,可以先找到和他兴趣相似的用户群体G,然后把G中所包含的且A中没有的东西进行预测评估,最后根据预测评估值对用户A进行推荐。方法:1、找到与用户A兴趣相似的用户群体2、对G中所包含的且A没有听说过或没有见过的...
转载
发布博客 2019.09.09 ·
182 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka中的acks参数

首先acks参数,是在kafkaProducer,也就是在生产者客户端里设置的也就是说,你往kafka写东西的时候,就可以设置这个参数。这个参数实际上有三种值可以设置,分别是0,1,和all.第一种选择是把参数设置成0我的kafkaProducer在客户端,只要把消息发送出去,不管那条数据有没有在哪怕Partition Leader上落到磁盘,就不管他了,直接认为这个消息发送...
转载
发布博客 2019.09.19 ·
1223 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

es

es是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进,性能最好的,功能最全的搜索引擎库。es不仅仅是Lucene和全文搜索,我们还能这样去描述它:分布式的实时文件存储,每个字段都被索引并可被搜索。分布式的实时分析搜索引擎。可以扩展到上百台服务器,处理PB级结构化和非结构化数据es是面向文档...
转载
发布博客 2019.09.17 ·
149 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive静态动态表

静态和动态分区表差不多一样,只不过在导入数据时需要加上条件:insert overwrite table p_user partition(occupationid) select id,gender,age,zip,occupationid from user;insert overwrite table p_user partition(occupationid=22) se...
转载
发布博客 2019.09.06 ·
147 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据仓库简单介绍

https://www.cnblogs.com/hbsygfz/p/4759680.html人们对数据的处理行为可以分为操作型数据处理和分析型数据处理,操作型数据处理一般放在传统的数据库(DB)中进行,分析型数据处理则需要放在数据仓库(DW)中进行。但是并不是所有的数据处理都可以这样划分,换句话说,人们对数据的处理需求并不只有这两类,比如,有些操作型处理并不适合放在传统的数据库上完成...
转载
发布博客 2019.09.10 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

groupbyKey和reducebyKey的区别

reducebyKey会先在本地机器上进行局部聚合,然后在移动数据,进行全局聚合groupbyKey会先将数据进行移动,再做聚合reducebyKey适合使用在大数据量上转载于:https://www.cnblogs.com/18800105616a/p/11454551.html...
转载
发布博客 2019.09.03 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive性能优化

hive配置角度优化:(1)列剪裁hive在查询时,只查询用到的列(2)分区裁剪hive在查询时将分区放入子查询中查询更加高效,可以减少读入的分区数目(3)join优化在编写带有join的语句时,将条目少的放在join操作符的左边,因为在reduce阶段,位于join操作符左边的数据会被加载到内存,载入条目较少的表,可以减少oom,所以对于同一个key来说,对应的...
转载
发布博客 2019.09.06 ·
77 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase过滤器使用

要完成一个过滤操作,至少需要两个参数;(1)抽象的操作符(2)具体的比较器https://www.cnblogs.com/qingyunzong/p/8681529.html#_label0抽象操作符(比较运算符)LESS <LESS_OR_EQUAL <=EQUAL =NOT_EQUAL <>GREATER_OR_EQUAL &g...
转载
发布博客 2019.09.05 ·
181 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive大小表join性能优化

当一个大表和小表进行join操作时,使用mapjoin性能比普通的join要快很多,mapjoin还能解决数据倾斜问题,基本原理:在小数据量情况下,会将小表全部加载到执行join操作的程序的内存中,从而加快join的执行速度。大小表join时,将小表放在前面,会将小表进行缓存。mapjoin将小表放入内存,在map端和大表逐一匹配,省去reduce操作转载于:https://...
转载
发布博客 2019.09.03 ·
429 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多