自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 springboot定时任务多线程配置

直接上代码定时任务配置累,配置10个线程池/** * 定时任务县城池配置 * 可执行a,b任务并行,a,a任务串行 */@Configurationpublic class ScheduleConfig implements SchedulingConfigurer { @Override public void configureTasks(ScheduledTaskRegistrar taskRegistrar) { taskRegistrar.se

2020-12-24 17:59:51 374 1

原创 hive sql 多行转为一行&&collect_set&&collect_list的区别

1.collect_list 多行转一行,有序不去重数据select 123 uid,'a' name, int(1) typefrom tunion allselect 123 uid,'b' name, int(2) typefrom tunion allselect 123 uid,'c' name, int(3) typefrom tunion allselec...

2020-01-10 17:12:18 488

原创 sql实现递归累加的三种方法

有如下表:Tdate number 2019-01-01 20 2019-01-02 15 2019-01-03 10 2019-01-04 21 2019-01-05 88 2019-01-06 60 实现number按时间累加输出:date number 2019-01-01 20 2019-...

2019-07-26 19:14:09 7639 4

原创 sql的开窗函数over()

sql的一大神器就是over()开窗函数,以前我经常使用的就是row_number() over(partition by rowName order by rowName)别的都不熟悉,今天特简单做个总结,以便以后使用。数据排序使用row_number() over(partition by rowName ORDER BY rowName) row_number 的功能是为从第一行...

2019-06-18 20:34:40 1671

原创 数据挖掘+推荐系统+算法总结

最近在搞数据挖掘和推荐系统的项目,借着项目,自己简单吧常用的算法总结了一下,记录下来便于自己理解以及后期的学习,如有不对的地方请大家指出!1.ALS算法原理?答:对于user-product-rating数据,als会建立一个稀疏的评分矩阵,其目的就是通过一定的规则填满这个稀疏矩阵。als会对稀疏矩阵进行分解,分为用户-特征值,产品-特征值,一个用户对一个产品的评分可以由这两个矩阵...

2019-06-05 15:51:27 3598 1

转载 springboot之启动原理解析及源码阅读

springboot之启动原理解析及源码阅读前言SpringBoot为我们做的自动配置,确实方便快捷,但是对于新手来说,如果不大懂SpringBoot内部启动原理,以后难免会吃亏。所以这次博主就跟你们一起一步步揭开SpringBoot的神秘面纱,让它不在神秘。正文我们开发任何一个Spring Boot项目,都会用到如下的启动类@SpringBootApplica...

2019-05-17 11:39:46 379

原创 flume配置文件--httpSource,kafkaChannel,hdfsSink

tier1.sources = httpSourcetier1.channels = kafkaChanneltier1.sinks = hdfsSinktier1.sources.httpSource.channels = kafkaChanneltier1.sinks.hdfsSink.channels = kafkaChannel#--------httpSource----...

2019-02-27 11:44:22 503

转载 hive中对json字符串的解析-get_json_object和json_tuple的对比

     在技术对app进行埋点时,会讲多个字段存放在一个数组中,因此模型调用数据时,要对埋点数据进行解析,以作进一步的清洗。本文将介绍解析json字符串的两个函数:get_json_object和json_tuple。表结构如下:一、get_json_object函数的作用:用来解析json字符串的一个字段:select get_json_object(flist,'$.fi...

2019-02-25 18:41:52 744

原创 hive 添加,修改,删除字段的坑

 alter table table_name add  columns(location_id string) ;alter table table_name change column complete_status complete_status string;使用alter table语句更新变结构时,由于默认更行现有表结构,对历史分区表元数据无改动,导致原有分区变数据,新字段...

2019-01-23 16:53:20 38790 2

转载 Java 内存溢出(java.lang.OutOfMemoryError)的常见情况和处理方式总结

java.lang.OutOfMemoryError这个错误我相信大部分开发人员都有遇到过,产生该错误的原因大都出于以下原因:JVM内存过小、程序不严密,产生了过多的垃圾。导致OutOfMemoryError异常的常见原因有以下几种:内存中加载的数据量过于庞大,如一次从数据库取出过多数据; 集合类中有对对象的引用,使用完后未清空,使得JVM不能回收; 代码中存在死循环或循环产生过多重复...

2019-01-04 11:00:22 208

原创 hivesql删除数据、删除分区表、删除库表

-- 删除库drop database [if exists] db_name;-- 强制删除库drop database [if exists] db_name cascade;-- 删除表drop table [if exists] table_name; -- 清空表,第二种方式insert overwrite table_name select * from...

2019-01-04 10:51:50 8058

原创 crontab 定时任务执行sqoop任务脚本,无法查看运行日志

前段时间于到一个关于crontab定时任务的问题:问题是这样的我通过sqoop命令将mysql数据库数据同步到hive表,linux命令行执行没毛病,写成shell脚本,做crontab定时任务,发现执行不成功。tail -f /var/log/cron 执行正常。tail -f /var/mail/spool/work 没有日志输出。(我是work用户执行)其实是sqoo...

2018-12-27 11:17:02 2206

原创 数据采集架构图

2018-12-19 14:04:11 4571

原创 数据分析架构-图解

HDFS:分布式数据存储组件,主要用于数据平台数据的存储,存储现有历史行为数据以及服务端数据。构建数据仓库的基础存储单元数据聚合层:对原始数据进行有目的的清洗转合,基于数据模型以及一些基础业务场景做简单数据聚合使用。管理平台:任务的调度,元数据的管理,任务的监控报警。数据源:DB数据库:来自服务端的数据 Flume:埋点事件数据 API:各个服务接口数据 Kafka...

2018-12-19 13:59:15 1102

翻译 常用hive函数集锦

一、关系函数1.等值比較:=    语法:A=B操作类型:全部基本类型2.不等值比較:<>    语法:A<>B    操作类型:全部基本类型3.小于比較:<    语法:A<B操作类型:全部基本类型4.空值推断:IS NULL    语法:a is null操作类型:全部类型5.非空推断:IS NOT NULL    语法:a is...

2018-12-07 11:32:58 187

转载 kafka配置文件说明

Broker  Configs PropertyDefaultDescriptionbroker.id 每个broker都可以用一个唯一的非负整数id进行标识;这个id可以作为broker的“名字”,并且它的存在使得broker无须混淆consumers就可以迁移到不同的host/port上。你可以选择任意你喜欢的数字作为id,只要id是唯一的即可。log.dirs/tmp/kafka-logsk...

2018-04-28 17:58:56 1480

转载 nginx+lua+kafka实现日志统一收集汇总

一场景描述对于线上大流量服务或者需要上报日志的nginx服务,每天会产生大量的日志,这些日志非常有价值。可用于计数上报、用户行为分析、接口质量、性能监控等需求。但传统nginx记录日志的方式数据会散落在各自nginx上,而且大流量日志本身对磁盘也是一种冲击。 我们需要把这部分nginx日志统一收集汇总起来,收集过程和结果需要满足如下需求: 支持不同业务获取数据,如监控业务,数据分析统计业务,推荐业...

2018-04-28 15:34:51 618

翻译 spark属性配置方式

1.Spark1.x 属性配置方式      Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。      在Spark1.0.0提供了3种方式的属性配置:SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,appname使用setAppName...

2018-04-26 18:53:29 1801

原创 推荐系统浅谈-大家都知道的案例

最近公司一直让优化以前的推荐系统,于是就查看了,大量的推荐系统的文章,有一些新的信息推荐给大家。第一次接触【推荐系统】是在前两年的互联网论坛上,那时候,【机器学习】和【大数据】都是新概念,但是差不多半年后,【大数据】的概念就开始风靡全球了,到现在已经被爆炒得面目全非。因此买了一些推荐系统的书记,现在的很多热门书籍一样,都是跟着概念热起来的。 虽然有一些作者自己的实战经验在里面,但是总体上来说并没有...

2018-04-23 11:37:36 1526

原创 碎碎点点-积土成山,风雨兴焉;积水成渊,蛟龙生焉

博客开篇,不知道改写点啥,谈谈开通博客的目的首先,做软件开发已经有一点时间了,自己多多少少积累了一些知识,开通博客就是希望写下自己的碎碎点点的知识,以免后期忘记了,好回顾,同时也希望和大家分享,让我们共同成长。最后写点积累自己的话,希望与君共勉。有这么一句老话,让我们来听听“读万卷书,不如行万里路,行万里路不如名师指路。”还有变化版“读万卷书,不如行万里路,行万里路不如跟随成功人的脚步。”其实我们...

2018-04-18 16:29:38 335

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除