说的对-CSDN博客

原创 springboot定时任务多线程配置

直接上代码定时任务配置累，配置10个线程池/** * 定时任务县城池配置 * 可执行a，b任务并行，a，a任务串行 */@Configurationpublic class ScheduleConfig implements SchedulingConfigurer { @Override public void configureTasks(ScheduledTaskRegistrar taskRegistrar) { taskRegistrar.se

2020-12-24 17:59:51 402 1

原创 hive sql 多行转为一行&&collect_set&&collect_list的区别

1.collect_list 多行转一行，有序不去重数据select 123 uid,'a' name, int(1) typefrom tunion allselect 123 uid,'b' name, int(2) typefrom tunion allselect 123 uid,'c' name, int(3) typefrom tunion allselec...

2020-01-10 17:12:18 515

原创 sql实现递归累加的三种方法

有如下表：Tdate number 2019-01-01 20 2019-01-02 15 2019-01-03 10 2019-01-04 21 2019-01-05 88 2019-01-06 60 实现number按时间累加输出：date number 2019-01-01 20 2019-...

2019-07-26 19:14:09 7809 4

原创 sql的开窗函数over（）

sql的一大神器就是over（）开窗函数，以前我经常使用的就是row_number() over(partition by rowName order by rowName)别的都不熟悉，今天特简单做个总结，以便以后使用。数据排序使用row_number() over(partition by rowName ORDER BY rowName) row_number 的功能是为从第一行...

2019-06-18 20:34:40 1702

原创数据挖掘+推荐系统+算法总结

最近在搞数据挖掘和推荐系统的项目，借着项目，自己简单吧常用的算法总结了一下，记录下来便于自己理解以及后期的学习，如有不对的地方请大家指出！1.ALS算法原理？答：对于user-product-rating数据，als会建立一个稀疏的评分矩阵，其目的就是通过一定的规则填满这个稀疏矩阵。als会对稀疏矩阵进行分解，分为用户-特征值，产品-特征值，一个用户对一个产品的评分可以由这两个矩阵...

2019-06-05 15:51:27 3665 1

转载 springboot之启动原理解析及源码阅读

springboot之启动原理解析及源码阅读前言SpringBoot为我们做的自动配置，确实方便快捷，但是对于新手来说，如果不大懂SpringBoot内部启动原理，以后难免会吃亏。所以这次博主就跟你们一起一步步揭开SpringBoot的神秘面纱，让它不在神秘。正文我们开发任何一个Spring Boot项目，都会用到如下的启动类@SpringBootApplica...

2019-05-17 11:39:46 402

原创 flume配置文件--httpSource，kafkaChannel，hdfsSink

tier1.sources = httpSourcetier1.channels = kafkaChanneltier1.sinks = hdfsSinktier1.sources.httpSource.channels = kafkaChanneltier1.sinks.hdfsSink.channels = kafkaChannel#--------httpSource----...

2019-02-27 11:44:22 531

转载 hive中对json字符串的解析-get_json_object和json_tuple的对比

在技术对app进行埋点时，会讲多个字段存放在一个数组中，因此模型调用数据时，要对埋点数据进行解析，以作进一步的清洗。本文将介绍解析json字符串的两个函数：get_json_object和json_tuple。表结构如下：一、get_json_object函数的作用：用来解析json字符串的一个字段：select get_json_object(flist,'$.fi...

2019-02-25 18:41:52 768

原创 hive 添加，修改，删除字段的坑

alter table table_name add columns(location_id string) ；alter table table_name change column complete_status complete_status string；使用alter table语句更新变结构时，由于默认更行现有表结构，对历史分区表元数据无改动，导致原有分区变数据，新字段...

2019-01-23 16:53:20 38821 2

转载 Java 内存溢出（java.lang.OutOfMemoryError）的常见情况和处理方式总结

java.lang.OutOfMemoryError这个错误我相信大部分开发人员都有遇到过，产生该错误的原因大都出于以下原因：JVM内存过小、程序不严密，产生了过多的垃圾。导致OutOfMemoryError异常的常见原因有以下几种：内存中加载的数据量过于庞大，如一次从数据库取出过多数据；集合类中有对对象的引用，使用完后未清空，使得JVM不能回收；代码中存在死循环或循环产生过多重复...

2019-01-04 11:00:22 231

原创 hivesql删除数据、删除分区表、删除库表

-- 删除库drop database [if exists] db_name;-- 强制删除库drop database [if exists] db_name cascade;-- 删除表drop table [if exists] table_name; -- 清空表，第二种方式insert overwrite table_name select * from...

2019-01-04 10:51:50 8083

原创 crontab 定时任务执行sqoop任务脚本，无法查看运行日志

前段时间于到一个关于crontab定时任务的问题：问题是这样的我通过sqoop命令将mysql数据库数据同步到hive表，linux命令行执行没毛病，写成shell脚本，做crontab定时任务，发现执行不成功。tail -f /var/log/cron 执行正常。tail -f /var/mail/spool/work 没有日志输出。（我是work用户执行）其实是sqoo...

2018-12-27 11:17:02 2220

原创数据采集架构图

2018-12-19 14:04:11 4621

原创数据分析架构-图解

HDFS：分布式数据存储组件，主要用于数据平台数据的存储，存储现有历史行为数据以及服务端数据。构建数据仓库的基础存储单元数据聚合层：对原始数据进行有目的的清洗转合，基于数据模型以及一些基础业务场景做简单数据聚合使用。管理平台：任务的调度，元数据的管理，任务的监控报警。数据源：DB数据库：来自服务端的数据 Flume：埋点事件数据 API：各个服务接口数据 Kafka...

2018-12-19 13:59:15 1145

翻译常用hive函数集锦

一、关系函数1.等值比較：= 语法：A=B操作类型：全部基本类型2.不等值比較：<> 语法：A<>B 操作类型：全部基本类型3.小于比較：< 语法：A<B操作类型：全部基本类型4.空值推断：IS NULL 语法：a is null操作类型：全部类型5.非空推断：IS NOT NULL 语法：a is...

2018-12-07 11:32:58 195

转载 kafka配置文件说明

Broker Configs PropertyDefaultDescriptionbroker.id 每个broker都可以用一个唯一的非负整数id进行标识；这个id可以作为broker的“名字”，并且它的存在使得broker无须混淆consumers就可以迁移到不同的host/port上。你可以选择任意你喜欢的数字作为id，只要id是唯一的即可。log.dirs/tmp/kafka-logsk...

2018-04-28 17:58:56 1501

转载 nginx+lua+kafka实现日志统一收集汇总

一场景描述对于线上大流量服务或者需要上报日志的nginx服务，每天会产生大量的日志，这些日志非常有价值。可用于计数上报、用户行为分析、接口质量、性能监控等需求。但传统nginx记录日志的方式数据会散落在各自nginx上，而且大流量日志本身对磁盘也是一种冲击。我们需要把这部分nginx日志统一收集汇总起来,收集过程和结果需要满足如下需求: 支持不同业务获取数据,如监控业务，数据分析统计业务，推荐业...

2018-04-28 15:34:51 627

翻译 spark属性配置方式

1.Spark1.x 属性配置方式 Spark属性提供了大部分应用程序的控制项，并且可以单独为每个应用程序进行配置。在Spark1.0.0提供了3种方式的属性配置：SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext；SparkConf可以对某些通用属性直接配置，如master使用setMaster，appname使用setAppName...

2018-04-26 18:53:29 1827

原创推荐系统浅谈-大家都知道的案例

最近公司一直让优化以前的推荐系统，于是就查看了，大量的推荐系统的文章，有一些新的信息推荐给大家。第一次接触【推荐系统】是在前两年的互联网论坛上，那时候，【机器学习】和【大数据】都是新概念，但是差不多半年后，【大数据】的概念就开始风靡全球了，到现在已经被爆炒得面目全非。因此买了一些推荐系统的书记，现在的很多热门书籍一样，都是跟着概念热起来的。虽然有一些作者自己的实战经验在里面，但是总体上来说并没有...

2018-04-23 11:37:36 1535

原创碎碎点点-积土成山，风雨兴焉；积水成渊，蛟龙生焉

博客开篇，不知道改写点啥，谈谈开通博客的目的首先，做软件开发已经有一点时间了，自己多多少少积累了一些知识，开通博客就是希望写下自己的碎碎点点的知识，以免后期忘记了，好回顾，同时也希望和大家分享，让我们共同成长。最后写点积累自己的话，希望与君共勉。有这么一句老话，让我们来听听“读万卷书，不如行万里路，行万里路不如名师指路。”还有变化版“读万卷书，不如行万里路，行万里路不如跟随成功人的脚步。”其实我们...

2018-04-18 16:29:38 365

github_lzt的博客