数据挖掘
LK2W
这个作者很懒,什么都没留下…
展开
-
动手学数据分析–Task05:数据建模及模型评估
动手学数据分析–Task05:数据建模及模型评估原创 2020-08-26 20:11:04 · 270 阅读 · 0 评论 -
数据挖掘实践(资金流入流出预测)--Task06:学习总结
数据挖掘实践(资金流入流出预测)–Task06:学习总结赛题解读赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information阅读完赛题介绍后,总结了一下这个赛题的目的就是预测未来一个月,每天余额宝总的的转入金额和转出金额。是一个回归问题。通过本次学习,系统的学习了如何原创 2020-08-25 14:36:47 · 529 阅读 · 0 评论 -
动手学数据分析–Task04:数据可视化
动手学数据分析–Task04:数据可视化导入数据text = pd.read_csv(r'result.csv')text.head()# 可视化展示泰坦尼克号数据集中男女中生存人数分布情况sex = text.groupby('Sex')['Survived'].sum()sex.plot.bar()plt.title('survived_count')plt.show()# 可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图text.groupby(['Sex','Su原创 2020-08-24 21:30:11 · 175 阅读 · 0 评论 -
数据挖掘实践(资金流入流出预测)--Task05:建模预测
数据挖掘实践(资金流入流出预测)–Task05:建模预测数据挖掘实践(资金流入流出预测)–Task04:特征工程赛题解读赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information阅读完赛题介绍后,总结了一下这个赛题的目的就是预测未来一个月,每天余额宝总的的转入金额和原创 2020-08-23 18:35:51 · 472 阅读 · 0 评论 -
数据挖掘实践(资金流入流出预测)--Task04:特征工程
数据挖掘实践(资金流入流出预测)–Task04:特征工程赛题解读赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information阅读完赛题介绍后,总结了一下这个赛题的目的就是预测未来一个月,每天余额宝总的的转入金额和转出金额。是一个回归问题。数据挖掘“二八原则“80%的原创 2020-08-23 18:32:57 · 464 阅读 · 0 评论 -
数据挖掘实践(资金流入流出预测)--Task3时间序列模型
数据挖掘实践(资金流入流出预测)–Task2时间序列模型赛题解读赛题介绍:https://tianchi.aliyun.com/competition/entrance/231573/introduction数据集介绍及下载:https://tianchi.aliyun.com/competition/entrance/231573/information阅读完赛题介绍后,总结了一下这个赛题的目的就是预测未来一个月,每天余额宝总的的转入金额和转出金额。是一个回归问题。时间序列是指将同一统计量的数值原创 2020-08-22 20:54:29 · 481 阅读 · 0 评论 -
动手学数据分析--Task3数据重构
动手学数据分析–Task3数据重构了解数据重构的方法使用groupby做数据运算1。读入数据,查看数据前几行。2.使用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_uplist_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)result_up.head()list_down=[text_left_dow原创 2020-08-22 20:38:24 · 171 阅读 · 0 评论 -
数据挖掘实践(资金流入流出预测)--Task2时间序列规则
数据挖掘实践(资金流入流出预测)–Task2时间序列规则时序数据:时序数据是指时间序列数据,可以用数值反映其变化程度的数据。例如股票大盘走势、气象变化、内存监控等.时间序列的基本特征包括:趋势性,序列相关性,随机性.一、分析大小额用户前面的分析可以看出,某些用户的交易额很大,对于日交易量很明显,这里统计四月份后依旧活跃的大额用户(大于100万)二、分析用户的交易频次绘制频繁用户与非频繁用户总购买赎回量的时序图在这里插入图片描述三、分析用户的其他属性统计每个城市用户的日总交易额的区别并原创 2020-08-21 10:37:30 · 287 阅读 · 0 评论 -
动手学数据分析-Task02:数据清洗及特征处理
数据分析-Task02:数据清洗及特征处理一、数据清洗数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论。在实际的工作中,数据清洗通常占开发过程的50%-80%左右的时间。学习自:https://blog.csdn.net/loveliuzz/article/details/78833835...原创 2020-08-21 09:11:28 · 266 阅读 · 0 评论 -
数据挖掘实践(资金流入流出预测)--Task1数据探索与分析
金融时序数据挖掘实战学习内容–Task1数据探索与分析1. 数据探索和准备步骤1.1 时间序列图通过时间变化可以得到事务的变化趋势1.2 数据分布可视化可以使用直方图、密度曲线图、箱型图、小提琴图等1.3 变量间相关性分析与独立性分析相关性分析定类变量:名义型变量;性别定序变量:不仅分类,还按某种特性排序;两值的差无意义;教育程度定距变量:可比较大小、差有意义的变量独立性分析/检验变量间无线性相关性,还可能存在非线性关联假设X为连续型变量,Y为离散型变量(有R种取值)????_0原创 2020-08-20 21:28:22 · 604 阅读 · 0 评论 -
动手学数据分析-Task1
数据分析-Task1.数据基础操作1. 数据载入及观察在数据处理中,第一步通常都需要导入数据,并进行对数据的初步预览1.导入库导入所需数据库:import numpy as np; import pandas as pd2.载入数据pd.read_csv(‘filename’), csv为文件格式,可替换为其他格式:tsv;xlsx3.逐块读取有时数据库过大,为了节约内存需要分批次读取:pd.read_csv(‘filename’, chunksize=int)4.修改column索引名称原创 2020-08-20 20:49:03 · 124 阅读 · 0 评论 -
大数据时代的数据挖掘是怎么做的?
3月13日下午,南京邮电大学计算机学院、软件学院院长、教授李涛在CIO时代APP微讲座栏目作了题为《大数据时代的数据挖掘》的主题分享,深度诠释了大数据及大数据时代下的数据挖掘。众所周知,大数据时代的大数据挖掘已成为各行各业的一大热点。一、数据挖掘在大数据时代,数据的产生和收集是基础,数据挖掘是关键,数据挖掘可以说是大数据最关键也是最基本的工作。通常而言,数据挖掘也称为DataMining,或知识...转载 2019-11-10 15:34:02 · 1221 阅读 · 0 评论