数据挖掘
文章平均质量分 73
xuweiling_
这个作者很懒,什么都没留下…
展开
-
[DM实战]中医症型关联规则挖掘
1、发现中医症状间的关联关系和诸多症状间的规律性,并且依据规则分析病因、预测病情发展以及为未来临床诊治提供有效借鉴。根据数据实现以下目标:1)借助三阴乳腺癌患者的病理信息,挖掘患者的症状与中医证型之间的关联关系。2)对截断治疗提供依据,挖掘潜性证素。2、数据获取:以问卷调查方式对数据进行收集,并将问卷信息整理成原始数据。(患者临床病理性息大部分都记录在纸张上,包含了患者的基本信息,原创 2018-01-13 19:46:22 · 1967 阅读 · 0 评论 -
[tianchi]移动推荐算法大赛[一]
天池大数据竞赛-移动推荐算法大赛 本博客实现最简单的用户购买行为预测流程:根据前一天的交互行为,预测第二天的购买行为。 1、查看、处理user表格和item表格import pandas as pdimport numpy as npuser_behavior_file = '../fresh_comp_offline/tianchi_fresh_comp_train_user....原创 2018-05-31 21:57:45 · 728 阅读 · 1 评论 -
[DM]推荐算法
推荐算法介绍推荐系统在各种系统中广泛使用,推荐算法则是其中最核心的技术点,为推荐系统选择正确的推荐算法是非常重要的决定。目前为止,已经有许多推荐算法可供选择,但为你需要解决的特定问题选择一种特定的算法仍然很困难。每一种推荐算法都有其优点和缺点,当然也有其限制条件,在作出决定之前,你必须要一一考量。在实践中,你可能会测试几种算法,以发现哪一种最适合你的用户,测试中你也会直观地发现它们是什么以及它...原创 2018-06-12 11:22:34 · 2441 阅读 · 1 评论 -
[DM]集成学习
1、集成学习介绍集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”(集成学习对训练集数据,训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的)。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测...原创 2018-06-11 21:54:27 · 492 阅读 · 2 评论 -
[tianchi]移动推荐算法大赛[二]
特征工程到底是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 上一篇文章中只是用原始数据抽出最简单的特征,使用最简单的特征来构建模型,最终的预测效果不是特别理想,因此基于user_id、item_id、category三大基...原创 2018-06-03 21:43:05 · 394 阅读 · 3 评论 -
[DM实战]航空公司客户价值分析
1、背景与挖掘目标 信息时代的来临使得企业营销焦点从产品中心转变为客户中心,而客户关系管理的关键问题是客户分类。 面对市场激烈的竞争,通过建立合理的客户价值评估模型,对客户进行分群,分析比较不同客户群的客户价值,并制定相应的 营 销策略,对不同的客户群提供个性化的客户服务是必须和有效的,目前该航空公司已积累了大量的会员档案信息和其乘坐航 班记录,原创 2018-01-10 15:12:31 · 1832 阅读 · 0 评论 -
数据挖掘十大经典算法
数据挖掘基本任务:分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。DM过程: a目标定义(任务理解、指标确定) b数据采集(建模抽样、质量把控、实时采集) c数据整理(数据探索、数据清洗、数据变换) d构建模型(模式发现、构建模型、验证模型) e模原创 2018-01-01 21:39:19 · 25453 阅读 · 1 评论 -
[DM实战]家用电器用户行为分析与事件识别
1、家用企业若能深入了解不同用户群的使用习惯,开发新功能,就能开拓新市场。厂商可从热水器智能操作和节能运行等多方面对产品进行优化。热水器厂商根据洗浴事件识别模型,对不同地区的用户的用水进行识别,根据识别结果比较不同客户群客户群的客户使用习惯、加深对客户的理解等。从而,厂商可以给不同的客户群提供最适合的个性化产品、改进新产品的智能化的研发和制定相应的营销策略。根据提供的数据实现以下目标:原创 2018-01-16 19:10:02 · 3049 阅读 · 0 评论 -
[DM实战]电力窃漏电用户自动识别
1、从电力计量自动化系统、营销系统有选择性地抽取部分大用户用电负荷、终端报警及违约窃电出发信息等原始数据。2、对样本数据探索分析,剔除不可能存在窃漏电行为行业的用户,即白名单用户,初步审视正常用户和窃漏电用户的用电特征。 数据探索分析是对数据进行初步研究,发现数据的内在规律特征,有助于选择合适的数据预处理和数据分析技术。本案例主要采用分布分析和周期性分析等方法对电量数据进行数据探原创 2018-01-08 13:10:08 · 1405 阅读 · 0 评论 -
[DM实战]基于水色图像的水质评价
1、背景与挖掘目标有经验的从事渔业生产的从业者可通过观察水色变化调控水质,以维持养殖体系水体生态系统中浮游植物、微生物类、浮游动物等合理的动态平衡。由于这些多是通过经验和肉眼观察进行判断的,存在主管性引起的观察性偏倚,使观察结果的可比性、可重复性降低,不易推广应用。当前,数字图像处理技术是基于计算机视觉的,以专家经验为基础,对池塘水色进行优劣分级,实现对池塘水色的准确快速判别。2、从采集到原创 2018-01-14 17:05:22 · 1437 阅读 · 0 评论 -
准确率(Precision)、召回率(Recall)以及综合评价指标(F1-Measure )
天池大数据竞赛-移动推荐算法大赛 比赛采用经典的精确度(precision)、召回率(recall)和F1值作为评估指标。具体计算公式如下: 1、准确率与召回率(Precision & Recall)我们先看下面这张图来加深对概念的理解,然后再具体分析。其中,用P代表Precision,R代表Recall 一般来说,Precision 就是检索出来的条目中(比如...原创 2018-06-25 16:30:20 · 2417 阅读 · 2 评论