- 博客(8)
- 收藏
- 关注
原创 利用时间序列预测用户系统是否过载
目标: 预测服务器磁盘已使用空间大小思路与流程: 系统长时间运行,数据会持续写入磁盘,存储空间持续减少。由此看来,磁盘空间大小与时间变化有很强的关联性,且历史数据对未来发展存在一定的影响,故采用时间序列模型 确定模型之后,需要抽取相应的数据。需要对数据进行周期性分析及数据清洗、数据变换等操作,以适应模型的的需要抽取数据 - 数据探索 - 数据预处理 - 构建模型一、抽取数据 本次挖掘抽取 2
2017-10-19 22:11:54 441
原创 利用关联规则挖掘中医证素与恶性肿瘤的关系
目标: 借助病理信息,挖掘各中医证素与乳腺癌TNM分期之间的关系思路与流程: 目的是为了挖掘各中医证素与乳腺癌TNM分期之间的关系,故采用关联规则模型 确定模型之后,需要整理患者的各中医证素与乳腺癌TNM分期数据。需要对数据进行预处理,包括数据清洗,属性规约,数据变换等,以适应挖掘的需要获取数据 - 数据预处理 - 构建模型一、获取数据中医证素:’肝气郁结证型系数’、’热毒蕴结证型系数’、’冲
2017-10-16 13:48:41 1740 1
原创 利用聚类分析航空公司客户价值
目标: 客户分类,比较分析不同类别客户价值,制定相应的营销策略思路与流程: 分析的目标是将航空公司客户分类,属于无监督学习,故采用聚类挖掘模型 确定模型之后,需要选择相应的指标,这里指标的选择需结合业务来确定,能够反映客户的关键特征 确定模型和指标之后,可能需要对数据进行一定的探索分析,预处理等,以适应挖掘的需要数据抽取 - 数据探索分析 - 数据预处理 - 构建模型及模型应用一、数据抽取首
2017-10-11 14:40:25 4874 2
原创 利用神经网络识别窃电用户
目标: 识别用户是否存在窃电行为分析思路与流程: 识别用户是否存在窃电行为是预测模型中的分类问题,故采用分类模型 确定模型之后,需要根据模型的要求,归纳窃电用户的关键特征 关键特征的获取,可能需要对数据进行一定的清洗,探索分析及预处理数据抽取 - 数据探索分析 - 数据预处理,包括清洗和处理缺失值等 - 数据指标构建 - 模型构建及评价PS:由于数据隐私,本文着重讲 缺失值处理,模型构建和模
2017-09-28 17:31:47 2980
原创 用户消费行为分析
数据:CDNow网站的用户购买明细 目的:根据CDNow网站的用户购买明细,分析用户的消费行为 分析思路: 原始数据并未提供分析目的要求的行为数据,需通过已知的数据构建指标。目的是为了分析用户的消费行为,故采用维度分析法,从特定的角度和层面分析数据 分析内容: 1. 销量和消费金额分析 2. 消费的时间节点 3. 复购率,回购率分析 4. 用户分层 5. 用户生命周期和消费周期先看
2017-09-13 17:47:51 13510 1
原创 大数据时代 数据分析师去哪里了(2)
按城市分组,平均月薪,工作机会比较 可以看出,工作机会前5的城市分别为北京,上海,深圳,杭州,广州,占到工作机会的百分之90以上(可以用cumsum计算),北京占了大头,对数据分析人才需求最大。平均月薪前五的城市分别为北京,深圳,上海,杭州,苏州,基本上工作机会越大,平均月薪越高,可以用corr计算两者的相关性按行业分组,平均月薪,工作机会比较可以看出,工作机会前10的行业标签为移动互联网,数据服
2017-09-04 17:58:05 609
原创 大数据时代 数据分析师去哪里了(1)
数据源:从招聘网站上爬取的 数据分析师相关岗位 的招聘信息目的:站在求职者的角度,分析 数据分析师相关岗位 的招聘数量和薪酬水平分析流程: 通过观察数据,发现存在脏数据,需要进行清洗。发现不存在薪酬属性列,需要重新构建。根据分析的目的,采用维度分析法,对比得出结论 数据清洗 - 构建新的属性项 - 多维度对比分析,并且得出结论步骤: 1 数据清洗,positionId为唯一识别值,删除重复的
2017-09-04 12:49:56 440
原创 Markdown和扩展Markdown简洁的语法
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-09-04 11:45:05 429
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人