![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 85
fitzgerald0
太阳出来的时候尽管我帮不上忙,此时唯一重要的是,日出时有你在场。
展开
-
k-shape时间序列聚类(tslearn)
时间序列聚类概述时间序列数据挖掘从技术角度来讲,一般有四种时间序列预测,时间序列分类,时间序列聚类,时间序列异常检测基本上包含了机器学习的几大领域由于时序数据的特殊性,所以每一个方面都与截面数据挖掘有所区别。本文主要讲讲时序聚类中的k-shape算法,和以往的风格一样,重在算法实现。时间序列数据的聚类,关键在于如何定义相似度。比如基于时间序列特征(len,max,min,std,lag)等可以使用 KMeans算法进行聚类。除了使用欧式距离以外,还可以使用dtw等方法,以及动态规划原理,对时间序列.原创 2020-08-23 21:15:27 · 27230 阅读 · 53 评论 -
Multi-task LightGBM安装
Multi-task LightGBM安装原创 2022-11-13 13:32:16 · 983 阅读 · 1 评论 -
(时间序列)回归模型融合策略
机器学习回归预测中,存在多个模型预测结果,我们可以选择最优的模型结果 ,也可以组合多个不同模型结果,研究表明,在许多情况下,只需对不同预测方法的预测结果进行平均就可以显著提高预测精度。同时达到最优模型的效果。原创 2022-02-21 22:42:51 · 4217 阅读 · 0 评论 -
PySpark与DataFrame简介
PySpark与DataFrame简介原创 2021-05-06 15:34:54 · 2188 阅读 · 5 评论 -
PySpark.ml时间序列特征工程
PySpark.ml时间序列特征工程原创 2021-05-06 14:43:07 · 2203 阅读 · 0 评论 -
PySpark机器学习调参方法
PySpark.ML调参方法(CrossValidator与TrainValidationSplit)原创 2021-05-06 13:54:05 · 1873 阅读 · 0 评论 -
PySpark线性回归与广义线性模型
本节从原理和代码上讲解销量预测任务中使用到的Spark.ML内置线性回归模型和广义线性模型。原创 2021-05-06 12:31:01 · 1644 阅读 · 0 评论 -
Spark.SQL时间序列缺失值填充与异常值处理
PySpark时间序列缺失值填充与异常值修复原创 2021-04-30 17:14:03 · 3593 阅读 · 1 评论 -
PySpark时间序列数据统计描述,分布特性与内部特性
为更好的洞察和处理大规模时序数据的特性,本文针对大规模时序数据,从基本统计特性,分布,序列内部检测三方面,提供Spark和借助numpy,scipy,statsmodels封装的成UDF函数脚本与理论讲解原创 2021-04-24 14:29:58 · 1974 阅读 · 0 评论 -
销量预测简单模型
销量预测常用简单模型总结,基于python和Spark.SQL原创 2021-04-20 20:58:02 · 5356 阅读 · 0 评论 -
PySpark机器学习特征选择
本文基于SPARK.SQL和SPARK.ML实现常见的4种结构化数据特征选择方法,并给出基于树模型的特征选择代码。原创 2021-04-19 23:01:04 · 2241 阅读 · 1 评论 -
销量预测建模中常用的损失函数与模型评估指标
本文详细的梳理了销量预测领域常见的损失函数和模型评估指标。原创 2021-04-06 21:49:43 · 2138 阅读 · 0 评论 -
PySpark外部包lightgbm的jar依赖文件
PySpark外部包lightgbm的jar依赖文件原创 2021-02-17 22:36:46 · 1765 阅读 · 3 评论 -
基于PySpark的销量预测
“ 本文阐述基于Pyspark的sql数据读取、特征处理、寻找最优参数、使用最优参数预测未来销量的全过程,重在预测流程和Pyspark相关知识点的讲解,展示可供企业级开发落地的demo。”原创 2020-06-21 15:07:02 · 2162 阅读 · 1 评论 -
PySpark-prophet预测
简介Prophet是facebook开源时间序列预测工具,使用时间序列分解与机器学习拟合的方法进行建模预测。关于prophet模型优点我不打算说,网络上的文章非常多,各种可视化,和参数的解释与demo演示。但是在正在用到工业上大规模的可供学习的中文材料并不多。本文打算使用pyspark进行多序列预测建模,会给出一个比较详细的脚本,供交流学习,重点在于使用hive数据/分布式,以及中间数据预处理,以及pandas_udf对多条序列进行循环执行。背景说明,在十万级别的sku序列上使用prophet预测每原创 2020-05-16 12:01:50 · 2399 阅读 · 5 评论 -
pyarrow.lib.ArrowInvalid: ‘utf-32-le‘ codec can‘t decode
使用pyspark的时候定义数据类型通过@pandas_udf的形式进行装饰的时候发现这个错误schema = StructType([ StructField("store_sku", StringType()), StructField("ds", StringType()), StructField("pro_pred", DoubleType())])@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP原创 2020-05-13 21:12:02 · 2067 阅读 · 2 评论 -
时间序列树模型特征工程汇总
时间序列特征汇总特征一、时间特征特征二、类别mean encoding特征特征三、统计特征特征四:滞后历史特征特征五:高阶特征特征六:外部特征稍微总结一下,时间序列中的特征,主要针对机器学习树模型,因为是时序数据,所以和寻常的机器学习特征略有不同,比如关注时间特征,滞后特征,滑窗特征等。特征一、时间特征import datetimeimport pandas as pddf['ds']=...原创 2020-01-18 14:10:02 · 7114 阅读 · 4 评论 -
无约束优化基础--解的条件
无约束优化基础——解的条件解的条件补充:凸函数的实用场合:局部最小值就是全局最小值。必要和充分条件都是一阶(2)终止条件(3)算法的收敛性:(4)收敛速度:原创 2017-11-19 19:39:07 · 421 阅读 · 0 评论 -
在mac上配置LightGBM以及不同python版本在anaconda下环境配置
在mac上配置LightGBM先给出github上的链接https://github.com/Microsoft/LightGBM/blob/master/docs/Installation-Guide.rst#osx直接pip install 是会报错的本文只记录个人用brew安装的,先要确认电脑是否有install brew1 用 brew 安装cmake编译原创 2017-10-23 18:06:54 · 4602 阅读 · 0 评论 -
百度云-深度学习tensorflow搭建
百度云上部署Tensorflow进行模型训练 上半年就了解过百度云但是还是tf1.0版本的,而谷歌3月份的升级到1.2改动挺大的,百度云上更新滞后,所以尽管有tf平台,版本落后每小时付费还是有点小贵,于是没有考虑了,近日有对比了几家平台,百度云深度学习tensorflow是1.2了,更符合个人的习惯,同时可以选择用jupyter登录写代码。 首先是进入百度云官网 实名认证,目前所有的云...原创 2017-12-25 21:35:46 · 6509 阅读 · 2 评论 -
python类别变量(class_label)转换为One_Hot的几种方式
首先解析一下,one_hot (独热)编码,和dummy variable(哑变量)的区别: 在用keras时候,有一个模块写好one_hot转换from keras.utils import to_categoricaldata = [1, 3, 2, 0, 3, 2, 2, 1, 0, 1]encoded=to_categorical(data)pri...原创 2018-01-29 23:19:29 · 38449 阅读 · 3 评论 -
正则化最小二乘与条件数(cond)
来源于自学《凸优化》和《矩阵分析与应用》笔记正则化最小二乘给定AϵRm×nAϵRm×nA\epsilon R^{m\times n},bϵRmbϵRmb\epsilon R^{m },为函数F1和F2两个目标的优化问题,Ax中A为已知系数矩阵,x表示要求的系数参数,b表示真实值,label,或者y值Ax中A为已知系数矩阵,x表示要求的系数参数,b表示真实值,label,或者y值Ax中A...原创 2018-03-29 22:11:29 · 4489 阅读 · 0 评论 -
机器学习-特征工程笔记
机器学习-特征工程 对于某个特定任务来说,如何找到最佳数据表示,称之为特征工程(feature engineering)分类变量 One_Hot编码与dummy variable python代码实现在我另一篇博客连接连续变量离散化 特征离散化( discretization)也叫分箱(bining),与上文不同的是,离散化是把原理连续取值的变量转化为几个值表示。 比如在...原创 2018-04-12 09:56:25 · 563 阅读 · 0 评论 -
keras做CNN的训练误差loss的下降
采用二值判断如果确认是噪声,用该点上面一个灰度进行替换。噪声点处理:对原点周围的八个点进行扫描,比较。当该点像素值与周围8个点的值小于N时,此点为噪点 。处理后的文件大小只有原文件小的三分之一,前后的图片内容肉眼几乎无法察觉。但是这样处理后图片放入CNN中在其他条件不变的情况下,模型loss无法下降,二分类图片,loss一直在8-9之间。准确率维持在0.5,同时,测试集的训练误差持续下...原创 2018-01-08 14:06:15 · 13553 阅读 · 7 评论 -
TensorFlow Probability概率编程-时序模型
本文使用TensorFlow Probability这一新的概率编程工具,通过实例介绍其中的时间序列建模。原创 2019-05-16 23:44:56 · 3981 阅读 · 2 评论 -
基于tsfresh特征扩展和lasso时序建模
本文介绍使用tsfresh库进行时序 Freature Extract,结合Lasso进行建模。一、背景众所周知,lasso是机器学习鼻祖之一Robert Tibshirani之作,以L1正则作为特征筛选的回归模型,在多元回归和高维数据建模中具有广泛的应用,但在时序模型中使用的较少,可以查到的几篇文章中文期刊中,主要使用在ARIMA模型中p的定阶,以及多元时间序列的特征筛选。而tsfresh...原创 2019-05-27 21:52:19 · 2077 阅读 · 0 评论 -
利用SARIMAX进行销量预测
本文从传统的时间序列SARIMAX算法讲解销量预测模型。主要涉及到python的pandas、statsmodels、joblib等模块,通过对多个模型进行并行网格搜索寻找评价指标MAPE最小的模型参数,虽然供应链销量预测可供使用的模型非常多,但是作为计量经济学主要内容之一,时间序列因为其强大成熟完备的理论基础,应作为我们处理带有时序效应数据时首要尝试的模型类型,且往往效果不错。本文只是从代码的...原创 2019-09-14 10:32:14 · 21990 阅读 · 17 评论