自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (3)
  • 收藏
  • 关注

原创 【python库学习】lightgbm集成学习库学习

随着GBDT的广泛应用与大数据集的日益增加,对算法的效率要求不断提高;因此基于GBDT上出现了不少改进算法,其中XGBoost是改进成功的代表.然在高维特征跟大型数据集场景下,改进算法仍无法满足需求.因此又出现了针对该问题的改进算法light GBM,其特别之处在于提出了一个基于梯度的单边采样降低了训练集大小,提出了一个互斥特征绑定,降低了特征维度,从而在精度差异不大的情况下.提升了模型的效率.

2024-06-07 15:13:12 817

原创 【python库学习】XGBoost集成学习库学习

XGboost 梯度加速决策树集成学习,是在GBDT后出现的一个应用广泛且框架稳定的模型.其出现源于原梯度加速模型在大型数据上计算量大,运行速度缓慢;二是随着数据库的积累与丰富,对更高性能,精度与效率的模型需求越来越高;两大原因催生了该模型的出现.接下来我们将首先了解熟悉该模型的原理,优化点;然后是对应的库的实现方法,相应参数,重要属性使用,与实践中的一些注意事项.

2024-05-13 11:30:14 721

原创 【python库学习】sklearn集成学习ensemble模块学习

集成学习由数个基础学习器构成, 在表现上通常优于单个学习器。根据基础学习器的组合方式又分为bagging、boosting、stacking三大类,第一类经典模型为随机森林,第二类代表为梯度boosting,该类目前最受欢迎的有LGBM,GBDT,XGBoost。

2024-03-06 13:51:35 1274

原创 hive实现多列数组元素一一对应展开为行

有如下均为字符类型的数据,其中aa与bb里面放的是数组,且每一行,而不同行之间长度不不同,目标是想让aa,bb中的,如下方第2行展开后为图2所示.目标输出。

2024-03-01 17:27:16 421

原创 hive 分组后使用近期日期数据进行缺失值填充

有产品重量表,其数据如图所示,一共为四列,分别是日期inc_day,重量weights_value,产品类型product_name,与产品等级product_level.可以看到有些日期下的重量是缺失的,此时我想要拿近期同产品类型跟等级下的重量数据进行填充,也就是第二幅图这样。最后对求和,以及产品类型跟等级进行分组按日期排序取重量最大值,这样缺失的部分前面若有非缺失值,取最值,非缺失值则会被取到,否则继续为空,作为缺失处的值;然后对标记分组求和得到👇结果,可以看到缺失的地方不会进行累加,无缺失的会累加.

2023-12-26 19:40:36 514

原创 深度学习经典结构之长短期记忆网络LSTM

从三个门的公式可以看到,其激活函数与状态生成的激活函数不一样,门的激活函数选用sigmoid类函数,取值在[0,1]之间,符合门的定义,是实现长短期记忆的功能控制开关;Keras的每个循环层都有两个与 dropout 相关的参数:一个是 dropout,它是一个浮点数,指定该层。状态激活函数tanh,取值[-1,1],是一个0值中心化的函数,在0附近的梯度较大,收敛快.GRU不引入额外的状态,而是引入的一个更新门与重置门.其公式如下。则为外部状态,其三个门可以理解为下面的作用。

2023-11-15 15:45:37 403

原创 【python库学习】 sklearn中的支持向量模型svm模块

在二分类中,使用Platt 缩放法实现,该方法使用SVC模型输出作为训练集,构建sigmod函数,原标签仍为标签,进行拟合参数求解,由此得到了概率输出。当前模有方法SVC,NuSVC与LinearSVC,NuSVC与SVC的区别在于使用了参数V来控制训练误差的上限与支持向量的下限,而SVC的正则参数是C。SVM 支持向量的原型最开始是从一个二分类任务得到的.有一个二分类,标签y取值{+1,-1},想要进行分类,则要在样本中寻找一个超平面可以将样本分为两类,该超平面可以定义为。

2023-11-10 14:42:44 963 1

原创 深度学习基础之反向传播算法

其起源是我们想要神经网络结构对输入进行学习去拟合我们的目标输出,如何去衡量我们拟合的好不好,就是去衡量网络输出与标签值的距离,这个衡量距离的方法我们就称之为损失函数.有了损失函数我们的目标就是要去使得这个损失函数最小化,如何使得损失函数最小,我们想到导数,导数的定义如下方公式所示,当足够逼近x0时的斜率存在,则该点可导.f′x0lim⁡△x→0fx0△x−fx0△xf′x0​△x→0lim​△xfx0​△x−fx0​。

2023-11-06 23:33:34 74

原创 【python库学习】 sklearn中的决策树Decision Trees

本库的决策树通过分段常数逼近目标分布,深度越大,其分段越细致,同时复杂度越大,拟合越好,过拟合风险上升。决策树易于理解与解释,且生成的决策树可以可视化;无需做数据标准化处理,空值剔除等,注意的是本库不支持缺失值;其拟合时间复杂度是0(logN) N为样本数;可以处理多输出问题,可以同时接受连续值与类别型数据,注意本库不支持类别型数据;对数据假设要求不严格,在部分违反下,表现仍然不错。当然根据决策树的原理,也有一些缺点,一是不加限制会学到复杂的树结构,需要注意控制过拟合问题;

2023-06-19 11:38:28 3421 1

原创 【python库学习】 sklearn中的线性模型linear models模块

对sklearn库中linear models模块里的线性模型的不同类型的方法优缺点与使用注意事项,进行一个简单的学习,与学习记录。

2023-06-01 14:49:51 3021

原创 【论文阅读】NeuralProphet: Explainable Forecasting at Scale

本文模型延续了prophet的可扩展,解释性强,与使用友好的优点,同时增加了神经网络部分(包括自回归网络与协变模块两种网络),与基于pytorch后端的实现可以随着深度学习算法的更新进行更新,这部分弥补了prophet模型对上下文信息利用的缺失(通常对近期未来预测有重要作用,非线性动态拟合差,以及prophet基于stan(统计概率编程语言)实现难以与深度学习模型进行结合以及更新扩展的问题。

2023-05-12 19:46:53 958 1

原创 【论文阅读】Forecasting at scale

该文章是fbprophet 提出时对应的官方论文,同时fbprophet官方文档可以进该网站,了解fbprophet的实际使用与参数配置等方法。该论文中具体包括了fbprophet的原理,公式,特点,以及构建该模型的一些出发点,动机;数据预测与基线模型的对比,以及闭环时序预测的理念展示。阅读该文章对于初次接触fbprophet模型的人来说可以较好的对fbprophet模型有一个全面的了解。prophet模型由趋势项,周期项,节假日事件项与误差项组成,g(t)是趋势函数,可以设置不同的可变趋势;

2023-04-26 16:40:39 502 1

原创 hive使用关键字做字段

可知date在SQL语言中为关键字,用为字段名时,无法直接使用,需要加上倒引号,才可识别,在建表时也需加倒引号进行使用。

2022-07-11 14:18:38 2118

原创 机器学习---聚类算法总览

对聚类算法的大纲总结,基本知识全包括。

2021-12-29 11:53:55 1117

原创 spark ml聚类算法

K-means与高斯混合函数聚类的简单介绍与spark代码使用

2021-12-22 18:50:19 1018 2

原创 hive get_json_object传递可变参数

hive 复杂数据解析待解析数据字段与样例:样例1:request: TmPromiseReParam [calcMode=A, queryType=0, srcCode=662AA02P, destCode=752BK, consignTime=Fri Sep 24 11:21:00 CST 2021, weight=1.0, productType=T6, monthCard=null, srcAoi=662AA000832, destAoi=752BK000208, serviceCode=nu

2021-11-19 16:00:30 1534

原创 hive 获取某字段排序后倒数第n次的所有信息

hive 获取某字段排序后倒数第n次的所有信息牛客网sql题背景:有一个员工入职信息表empolyees,其中包含字段入职日期hire_date与其他相关信息字段。问题:要求获取倒数第n次入职的所有员工信息要求获取倒数第n次入职的一位员工信息解答:问题1:严格获取原表所有字段select * from employees where hire_date=(select distinct hire_date from employees order by hire_date d

2021-08-25 13:42:28 650

原创 访问Java接口

如何通过java访问http接口话不多说上代码,直接可用系列。package src.main.scala.com.sf.spark.otherimport com.alibaba.fastjson.{JSON, JSONObject}import org.apache.http.HttpEntityimport org.apache.http.client.config.RequestConfigimport org.apache.http.client.methods.{HttpGet,

2021-05-18 19:55:06 133

原创 scala 使用时间戳与时间互相转换类

借助java中的Date与Calendar实现时间类型互相转换时间戳:与1970年间隔的毫秒数-1621337596326时间string类型常见形式:“2021-05-18 19:33:16”1.获取当前时间2.获取昨天日期3.计算时间差4.指定日期和间隔天数,返回指定日期前N天的日期 date - N days5.指定日期和间隔小时,返回指定日期前N小时的日期 date - N days6.指定日期和间隔小时,返回指定日期后N小时的日期 date - N days7.时间与时间戳互相

2021-05-18 19:47:11 2427

原创 idea maven 打包报错 --xxxx\target\classes does not exist or is not a director --java: -source 1.5 中不支持 d

idea maven 打包报错 --xxxx\target\classes does not exist or is not a director --java: -source 1.5 中不支持 diamond 运算符1.xxxx\target\classes does not exist or is not a director在build project 之后,target会自动成,ackage仍报错;通过idea界面右侧maven,lifecycle下的clean,清除target,重新bu

2021-05-13 12:04:08 2348

原创 HIve 中explode,inline与lateral view

HIve 中explode,inline与lateral view1.功能展示2.使用注意事项不支持与其他字段同时使用不支持一次对同字段使用多次explode不支持在group by/sort by/cluster by 后使用explode3.与lateral view 一起使用SELECT myCol1, myCol2 FROM baseTableLATERAL VIEW explode(col1) myTable1 AS myCol1LATERAL VIEW explode(

2020-07-23 17:51:23 688

转载 spark log4j.properties配置详解与实例

spark log4j.properties配置详解与实例文章出处################################################################################ #①配置根Logger,其语法为: # #log4j.rootLogger = [level],appenderName,appenderName2,... #level是日志记录的优先级,分为OFF,TRACE,DEBUG,INFO,WARN,ERROR,FATAL,A

2020-07-14 11:26:20 1331

转载 Jedis 使用 API

Jedis 使用 APIJedis 使用 APIjedis 常用工具类参考资料Jedis 使用 APIJedis 是 Redis 官方首选的 Java 客户端开发包。转载的一个写的很好的博客,贴出来,如下:// An highlighted blockpackage com.wujintao.redis; import java.util.Date; import java.util.HashMap; import java.util.Iterator; import j

2020-06-30 11:29:35 188

转载 Hive 中 left outer join 与 left semi-join 的区别

Hive 中 left outer join 与 left semi-join 的区别测试数据为:1. left outer join语句:select * from table1 left outer join table2 on(table1.student_no=table2.student_no);结果:1 name1 1 111 name1 1 121 name1 1...

2019-10-15 17:41:05 343

转载 MySQL 中 having 和 where 的区别

MySQL 中 having 和 where 的区别区别一:where 是数据从磁盘读入内存时候一条一条判断的having 是将所有数据读入内存,在分组统计前,根据having的条件再将不符合条件的数据删除区别二:having 子句可以使用字段别名,where不可以用区别三:having可以使用统计函数,where不可用having筛选必须是 根据前面select字段的值 进行筛...

2019-10-15 16:53:29 97

实时计算项目(Scala结合spark实现).zip

实时计算项目Scala结合spark实现

2022-10-21

预测算法工程师或者数据挖掘涉及到的工程技术,算法理论知识,以及统计分析方法知识框架全览

预测算法工程师或者数据挖掘涉及到的工程技术,算法理论知识,以及统计分析方法论。这是一个系统的知识框架全览,可按照该框架进行知识学习与提升,近期开始做时序预测这一块的工作,逐渐添加时序预测需要使用到的一些算法知识。知识很多很广,慢慢填补中。

2022-02-22

临时的读书总结统计传递

临时的读书总结统计传递

2022-02-18

机器学习聚类分支.xmind

对机器学习中的聚类算法做了一个全局的思维导图,包括聚类主流算法,当前应用实现途径(python、 spark),算法性能评价指标,相似性度量种类

2022-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除