天池智能工业大赛大佬们的思路(需要再看)

打酱油参加了天池工业AI大赛1,当然没拿到奖,看决赛答辩直播时见识到了大佬们的各种思路,真是大开眼界。记录一下,留给以后参考。

1. 特征构造

这个是相当重要的
第一名那个女孩子并没有用什么高深的方法,但是对特征挖掘的特别好,并且提到我们可能要 “人工”智能,即是人为创造数据。1) 通过每个特征原始值与均值的差异,差异的绝对值构造。2) 通过可能特征的四则运算构造特征(当然,这是剔除掉部分原有特征后进行的,否则维度也太大了)。

2. 抗过拟合

由于大家主要使用的是皮尔森相关系数筛选的特征,那么确定相关系数(实际使用的是相关系数的绝对值)阈值就尤为重要。有个男孩子发现线下cv值并不随着阈值线性变化,而是表现出W型的变化趋势,即mse在两个阈值的时候都较低。所以,他分别使用这两个阈值标准筛选得到的训练数据建模、预测,对这两个模型融合(有可能直接用的平均,我忘记了)。

另外一个团队使用了深度学习的方法来做,原理可能是添加随机噪声什么的,具体我又忘记了。

3. 缺失值处理

其中一个男生使用的确实值处理方法可能有助于提高模型表现,他没有使用均值或中位数对缺失值进行处理,而是未对缺失值进行填充,使用了允许缺失值存在的xgboost模型。此外,有一些特征值为“0”的数据经判断后应该是机器上传过程中出现了错误等,他也把这些转化为了缺失值。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
阿里云天池大赛工业蒸汽量预测是一个时间序列预测问题,可以使用R语言中的时间序列分析和建模工具进行解决。以下是一个简单的R语言代码示例,用于预测未来的蒸汽量。 首先,我们需要读入数据并对其进行预处理。这个数据集包含了两个变量:日期和蒸汽量。 ```r # 读入数据 data <- read.csv("data.csv") # 转换日期格式 data$DATE <- as.Date(data$DATE, format = "%Y/%m/%d") # 将日期设置为数据框的行名 rownames(data) <- data$DATE # 移除日期变量 data$DATE <- NULL ``` 接下来,我们可以绘制数据的时间序列图,以便更好地了解数据的性质。 ```r # 绘制时间序列图 plot(data$V1, type = "l", xlab = "日期", ylab = "蒸汽量") ``` 然后,我们可以使用时间序列分解方法,将时间序列分解为趋势、季节性和随机性三个部分,并对其进行可视化。 ```r # 时间序列分解 ts.decomp <- decompose(data$V1) # 可视化分解结果 plot(ts.decomp) ``` 分解结果表明,该时间序列具有明显的季节性和趋势,但是随机性较小。 接下来,我们可以使用ARIMA模型进行时间序列预测。ARIMA模型是一种常用的时间序列建模方法,可以用于预测未来的蒸汽量。 ```r # 拟合ARIMA模型 arima.model <- arima(data$V1, order = c(1, 1, 1), seasonal = list(order = c(0, 1, 1), period = 7)) # 预测未来7天的蒸汽量 forecast <- predict(arima.model, n.ahead = 7) # 输出预测结果 print(forecast$pred) ``` 以上代码中,我们使用ARIMA(1,1,1)模型,并将季节性设置为7,以便对一周内的季节性进行建模。最后,我们使用predict函数预测未来7天的蒸汽量,并输出预测结果。 这是一个简单的R语言示例,用于预测未来的蒸汽量。您可以根据实际情况进行修改和扩展,以获得更好的预测结果。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值