自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 如何使用OpenBayes的数据集进行模型训练

目前机器学习竞赛中使用的数据集大小基本都有几十到几百MB,有的甚至达到GB级别,对于想使用jupyter进行训练的来说每次上传都会浪费很多时间,如果是使用算力平台的jupyter上传的话还会浪费算力,所以最好的方法就是在使用算力资源之前先将数据集上传到算力平台提供的数据存储空间中,例如OpenBayes就提供了数据仓库功能来存储数据,下面详细介绍一下使用流程:OpenBayes注册使用地址:新用户注册完成手机号及邮箱双重验证后,即可获得免费使用时长以及免费存储空间 50 GB。

2024-07-31 10:11:42 110

原创 如何使用OpenBayes安装GPU版本LightGBM

容器名称必填,另外也可以先自己上传数据到数据仓库,然后直接绑定容器就OK,接入方式选择jupyterlab的工作空间,可设置自动关闭,当JupyterLab 页面被关闭或者CPU 使用率持续低于 2%的时候会被视为空闲,空闲状态一段时间后将被自动关闭,当容器被认定为空闲状态后容器的创建者会收到短信或者邮件提醒。Openbayes提供了丰富的算力资源,最高可以提供96核CPU,192GB显存,320GB内存,800GB工作空间,详细算力资源如下所示。新用户注册完成手机号及邮箱双重验证后,即可获得。

2024-07-21 09:13:55 743

原创 时间序列预测:特征工程实用指南(二)

对于类别型变量,如果类别比较少,一般在机器学习里做的处理是one-hot encoding,但是如果类别一多,那么生成的特征是会很多的,容易造成维度灾难,但是也不能随便用label encoding,因为很多时候类别是不反应顺序的,如果给他编码成1、2、3、4、5,对于一些树模型来说,在分裂节点的时候可不管这些是类别型还是连续型,通通当作连续型来处理,这是有先后顺序的,肯定不能这么做。在独热编码中,每个类别都由一个长度等于类别总数的向量表示,其中只有一个元素为1(表示类别存在),其他元素为0。

2024-07-19 18:07:23 889

原创 时间序列预测:特征工程实用指南(一)

当下时间序列预测的方法主要有三种现在传统时序预测的方法的预测精度都已经不如基于机器学习和深度学习的方法了,但是后者依赖于特征工程,特征调教的好的话是可以达到很高的预测精度的一个典型的时间序列数据,会包含以下几列:时间戳,时序值,序列的属性变量,比如下图,日期就是时间戳,销量就是时序值,如果是多序列的话可能还会有序列的属性变量,如城市、产品、价格等。除了销售数据之外,时间序列数据可以包括各种不同类型的信息。以下是另一个典型的时间序列数据的示例:数据类型:气象观测数据时间戳温度 (摄氏度)

2024-07-14 22:51:30 997

原创 电力需求预测挑战赛|Datawhale AI夏令营第二期|代码及笔记分享

给定多个房屋对应电力消耗历史N天的相关序列数据等信息,预测房屋对应电力的消耗。本赛题是一个典型的时间序列问题。时间序列问题是指对按时间顺序排列的数据点进行分析和预测的问题,往往用来做未来的趋势预测。

2024-07-14 22:37:49 762

原创 分子性质AI预测挑战赛|Datawahle AI夏令营|代码分享

在当今科技日新月异的时代,人工智能(AI)技术正以前所未有的深度和广度渗透到科研领域,特别是在化学及药物研发中展现出了巨大潜力。精准预测分子性质有助于高效筛选出具有优异性能的候选药物。以PROTACs为例,它是一种三元复合物由目标蛋白配体、linker、E3连接酶配体组成,靶向降解目标蛋白质。本次大赛聚焦于运用先进的人工智能算法预测其降解效能,旨在激发参赛者创新思维,推动AI技术与化学生物学的深度融合,进一步提升药物研发效率与成功率,为人类健康事业贡献智慧力量。

2024-07-07 12:04:17 995 2

原创 用户新增预测挑战赛学习笔记(讯飞)

讯飞开放平台针对不同行业、不同场景提供相应的AI能力和解决方案,赋能开发者的产品和应用,帮助开发者通过AI解决相关实际问题,实现让产品能听会说、能看会认、能理解会思考。用户新增预测是分析用户使用场景以及预测用户增长情况的关键步骤,有助于进行后续产品和应用的迭代升级。

2023-08-18 21:35:09 349

原创 时间序列分析——基于R | 第3章 ARMA模型的性质习题代码

Wold分解定理;AR模型;MA模型;ARMA模型

2023-04-10 20:30:30 8987 6

原创 R数据可视化手册 第2版 CH1_2

R数据可视化手册SE(R Graphics Cookbook SE)

2023-03-09 11:20:04 517

原创 时间序列分析——基于R | 第2章 时间序列的预处理习题代码

基于R语言的时间序列的预处理,通过时间序列可视化对序列的平稳性和纯随机性进行检验,将序列分为不同的类型,对不同的类型采取不同的时间序列分析方法。

2023-03-07 14:13:00 23513 6

原创 时间序列分析——基于R | 第一章时间序列分析简介

时间序列分析——基于R(第2版)时间序列分析初步:1884-1939年英格兰与威尔士每亩小麦产量数据集

2023-02-20 13:35:30 2395

原创 多元统计分析及R语言建模(第五版)第二章习题

多元统计分析及R语言建模(第五版)第二章多元数据的数学表达习题

2023-02-19 14:28:38 2325

原创 《机器学习公式详解》Task1

经典“西瓜书”《机器学习》的学习伴侣

2023-02-14 23:55:47 234 1

SMS Spam Collection Data Set 垃圾短信收集数据集

SMS Spam Collection 是一组为 SMS Spam 研究收集的带有 SMS 标记的消息。它包含 5,574 条消息的一组英文 SMS 消息,根据合法或垃圾邮件进行标记。 这些文件每行包含一条消息。每行由两列组成:v1 包含标签(非垃圾邮件或垃圾邮件),v2 包含原始文本。

2022-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除