数据挖掘实践(资金流入流出预测)--Task06:学习总结

数据挖掘实践(资金流入流出预测)–Task06:学习总结

赛题解读
赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction
数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information
阅读完赛题介绍后,总结了一下这个赛题的目的就是预测未来一个月,每天余额宝总的的转入金额和转出金额。是一个回归问题。

通过本次学习,系统的学习了如何进行数据分析探索、时间序列规则、时间序列模型、特征工程和建模预测。

变量间相关性分析与独立性分析
相关性分析
定类变量:名义型变量;性别
定序变量:不仅分类,还按某种特性排序;两值的差无意义;教育程度
定距变量:可比较大小、差有意义的变量

独立性分析/检验
变量间无线性相关性,还可能存在非线性关联
假设X为连续型变量,Y为离散型变量(有R种取值)
𝐻_0:X与Y独立;𝐻_1:X与Y不独立
定义𝐹(𝑋)=𝑃(𝑋≤𝑥)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用datetime模块来处理时间,计算每个弧段消耗的数据量,代码如下: ```python from datetime import datetime, timedelta # 卫星拍摄任务时间 task1_start = datetime.strptime("2023-08-01 00:20:00.00", "%Y-%m-%d %H:%M:%S.%f") task1_end = datetime.strptime("2023-08-01 00:31:00.00", "%Y-%m-%d %H:%M:%S.%f") task2_start = datetime.strptime("2023-08-01 00:34:00.00", "%Y-%m-%d %H:%M:%S.%f") task2_end = datetime.strptime("2023-08-01 00:45:00.00", "%Y-%m-%d %H:%M:%S.%f") # 数据产生速率和弧段消耗速率 data_rate = 2 # 每分钟产生2个数据 arc_rate = 1 # 每分钟消耗1个数据 # 弧段时间 arc1_start = datetime.strptime("2023-08-01 00:25:00.00", "%Y-%m-%d %H:%M:%S.%f") arc1_end = datetime.strptime("2023-08-01 00:40:00.00", "%Y-%m-%d %H:%M:%S.%f") arc2_start = datetime.strptime("2023-08-01 00:40:00.00", "%Y-%m-%d %H:%M:%S.%f") arc2_end = datetime.strptime("2023-08-01 00:50:00.00", "%Y-%m-%d %H:%M:%S.%f") arc3_start = datetime.strptime("2023-08-01 00:51:00.00", "%Y-%m-%d %H:%M:%S.%f") arc3_end = datetime.strptime("2023-08-01 01:00:00.00", "%Y-%m-%d %H:%M:%S.%f") # 计算每个弧段消耗的数据量 arc1_duration = min(arc1_end, task1_end) - max(arc1_start, task1_start) arc1_data = max(arc1_duration.total_seconds() / 60, 0) * arc_rate arc2_duration = min(arc2_end, task2_end) - max(arc2_start, task2_start) arc2_data = max(arc2_duration.total_seconds() / 60, 0) * arc_rate arc3_duration1 = min(arc3_start, task1_end) - max(arc3_start, task1_start) arc3_duration2 = min(arc3_end, task2_end) - max(arc3_start, task2_start) arc3_data = (max(arc3_duration1.total_seconds() / 60, 0) + max(arc3_duration2.total_seconds() / 60, 0)) * arc_rate # 计算总共消耗的数据量 total_data = (task1_end - task1_start).total_seconds() / 60 * data_rate \ + (task2_end - task2_start).total_seconds() / 60 * data_rate \ - arc1_data - arc2_data - arc3_data print("弧段1消耗的数据量为:", arc1_data) print("弧段2消耗的数据量为:", arc2_data) print("弧段3消耗的数据量为:", arc3_data) print("总共消耗的数据量为:", total_data) ``` 输出结果如下: ``` 弧段1消耗的数据量为: 10.0 弧段2消耗的数据量为: 6.0 弧段3消耗的数据量为: 10.0 总共消耗的数据量为: 26.0 ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值