数据挖掘实战
文章平均质量分 92
Data新青年
Python,机器学习,数据可视化
展开
-
如何使用OpenBayes安装GPU版本LightGBM
容器名称必填,另外也可以先自己上传数据到数据仓库,然后直接绑定容器就OK,接入方式选择jupyterlab的工作空间,可设置自动关闭,当JupyterLab 页面被关闭或者CPU 使用率持续低于 2%的时候会被视为空闲,空闲状态一段时间后将被自动关闭,当容器被认定为空闲状态后容器的创建者会收到短信或者邮件提醒。Openbayes提供了丰富的算力资源,最高可以提供96核CPU,192GB显存,320GB内存,800GB工作空间,详细算力资源如下所示。新用户注册完成手机号及邮箱双重验证后,即可获得。原创 2024-07-21 09:13:55 · 958 阅读 · 0 评论 -
时间序列预测:特征工程实用指南(二)
对于类别型变量,如果类别比较少,一般在机器学习里做的处理是one-hot encoding,但是如果类别一多,那么生成的特征是会很多的,容易造成维度灾难,但是也不能随便用label encoding,因为很多时候类别是不反应顺序的,如果给他编码成1、2、3、4、5,对于一些树模型来说,在分裂节点的时候可不管这些是类别型还是连续型,通通当作连续型来处理,这是有先后顺序的,肯定不能这么做。在独热编码中,每个类别都由一个长度等于类别总数的向量表示,其中只有一个元素为1(表示类别存在),其他元素为0。原创 2024-07-19 18:07:23 · 997 阅读 · 0 评论 -
时间序列预测:特征工程实用指南(一)
当下时间序列预测的方法主要有三种现在传统时序预测的方法的预测精度都已经不如基于机器学习和深度学习的方法了,但是后者依赖于特征工程,特征调教的好的话是可以达到很高的预测精度的一个典型的时间序列数据,会包含以下几列:时间戳,时序值,序列的属性变量,比如下图,日期就是时间戳,销量就是时序值,如果是多序列的话可能还会有序列的属性变量,如城市、产品、价格等。除了销售数据之外,时间序列数据可以包括各种不同类型的信息。以下是另一个典型的时间序列数据的示例:数据类型:气象观测数据时间戳温度 (摄氏度)原创 2024-07-14 22:51:30 · 1136 阅读 · 0 评论 -
电力需求预测挑战赛|Datawhale AI夏令营第二期|代码及笔记分享
给定多个房屋对应电力消耗历史N天的相关序列数据等信息,预测房屋对应电力的消耗。本赛题是一个典型的时间序列问题。时间序列问题是指对按时间顺序排列的数据点进行分析和预测的问题,往往用来做未来的趋势预测。原创 2024-07-14 22:37:49 · 971 阅读 · 0 评论