2018年03月_SanFanCSgo

09月 07月 06月 05月 04月 03月 01月

原创数据挖掘习题选做--第三章：ChiMerge离散法

数据挖掘概念与技术习题选做第三章习题import numpy as npimport matplotlib.pyplot as pltimport statsmodels.api as sm # 导入统计模型模块data = np.array([13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,3...

2018-03-27 13:19:54 2634

原创数据挖掘读书笔记--第三章：数据预处理

散记知识点——“低质量的数据将导致低质量的挖掘结果。”数据清理可以用来清除数据中的噪声，纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据储存，如数据仓库。数据归约可以通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变换（如，规范化）可以用来把数据压缩到较小的区间。1. 数据预处理：概述1.1 数据质量数据质量涉及到许多因素，包括准确度、完整性、一致性、...

2018-03-25 19:43:52 2545 1

原创数据挖掘习题选做--第二章

数据挖掘概念与技术习题选做第二章习题用python解答如下：import numpy as npimport matplotlib.pyplot as pltdata = np.array([13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70])# 数据的均值...

2018-03-21 19:10:35 2412

原创数据挖掘读书笔记--第二章：认识数据

1. 一些散记知识点1.1 数据对象与属性类型关于属性定义：属性(attribute)是一个数据字段，表示数据对象的一个特征。一般习惯称为”特征”属性的分类(1) 标称属性： “与名称相关”，标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态，一次标称属性又被看作是分类的，这些值不必具有有意义的序。例如：水果的种类，苹果、香蕉(2) 二元属性：二元属性是...

2018-03-21 14:18:54 1499 1

StumbleUpon Evergreen数据，来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。 StumbleUpon 是一个个性化推荐引擎，根据用户的兴趣行为给用户推荐网页，而有些网页内容是即时性（ephemeral）的，比如新闻股票网页（用户短暂感兴趣），有些网页是长久性的（evergreen）如体育，理财等（用户持续感兴趣）。现要分辨网页是ephemeral的还是evergreen的，以便向用户推荐更加准确的网页。这是一个二分类问题。查看StumbleUpon数据的详细信息：https:www.kaggle.com/c/stumbleupon/data

2018-09-10

用于构造决策树的小数据集

数据挖掘概念与技术课本P218页数据表格式为.csv。。决策树一般采用贪心策略**自顶向下**递归的分治方式构造，从训练元组集和与之相关联的类标号开始，随着树的构建，训练集递归地划分成较小的子集。构造过程大致如下： 1. 构造**根结点**，根据**属性选择度量**（例如ID3的信息增益）来选择合适的属性作为根结点。 2. 根据根结点的属性值（可能是离散的，连续的或二值的）**分枝**，每个分枝代表元组在该属性下可能满足的条件。

2018-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

SanFancsgo的博客

原创数据挖掘习题选做--第三章：ChiMerge离散法

原创数据挖掘读书笔记--第三章：数据预处理

原创数据挖掘习题选做--第二章

原创数据挖掘读书笔记--第二章：认识数据

StumbleUpon Evergreen 数据集

用于构造决策树的小数据集

空空如也

原创 数据挖掘习题选做--第三章：ChiMerge离散法

原创 数据挖掘读书笔记--第三章：数据预处理

原创 数据挖掘习题选做--第二章

原创 数据挖掘读书笔记--第二章：认识数据

StumbleUpon Evergreen 数据集

用于构造决策树的小数据集

空空如也

原创数据挖掘习题选做--第三章：ChiMerge离散法

原创数据挖掘读书笔记--第三章：数据预处理

原创数据挖掘习题选做--第二章

原创数据挖掘读书笔记--第二章：认识数据