自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SanFancsgo的博客

业精于勤荒于嬉,行成于思毁于随。

  • 博客(4)
  • 资源 (2)
  • 收藏
  • 关注

原创 数据挖掘习题选做--第三章:ChiMerge离散法

数据挖掘概念与技术习题选做第三章习题import numpy as npimport matplotlib.pyplot as pltimport statsmodels.api as sm # 导入统计模型模块data = np.array([13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,3...

2018-03-27 13:19:54 2634

原创 数据挖掘读书笔记--第三章:数据预处理

散记知识点——“低质量的数据将导致低质量的挖掘结果。”数据清理可以用来清除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据储存,如数据仓库。数据归约可以通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变换(如,规范化)可以用来把数据压缩到较小的区间。1. 数据预处理:概述1.1 数据质量 数据质量涉及到许多因素,包括准确度、完整性、一致性、...

2018-03-25 19:43:52 2545 1

原创 数据挖掘习题选做--第二章

数据挖掘概念与技术习题选做第二章习题 用python解答如下:import numpy as npimport matplotlib.pyplot as pltdata = np.array([13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70])# 数据的均值...

2018-03-21 19:10:35 2412

原创 数据挖掘读书笔记--第二章:认识数据

1. 一些散记知识点1.1 数据对象与属性类型关于属性定义:属性(attribute)是一个数据字段,表示数据对象的一个特征。一般习惯称为”特征”属性的分类(1) 标称属性: “与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,一次标称属性又被看作是分类的,这些值不必具有有意义的序。例如:水果的种类,苹果、香蕉(2) 二元属性:二元属性是...

2018-03-21 14:18:54 1499 1

StumbleUpon Evergreen 数据集

StumbleUpon Evergreen数据,来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。 StumbleUpon 是一个个性化推荐引擎,根据用户的兴趣行为给用户推荐网页,而有些网页内容是即时性(ephemeral)的,比如新闻股票网页(用户短暂感兴趣),有些网页是长久性的(evergreen)如体育,理财等(用户持续感兴趣)。现要分辨网页是ephemeral的还是evergreen的,以便向用户推荐更加准确的网页。 这是一个二分类问题。 查看StumbleUpon数据的详细信息:https:www.kaggle.com/c/stumbleupon/data

2018-09-10

用于构造决策树的小数据集

数据挖掘概念与技术课本P218页数据表格式为.csv。。决策树一般采用贪心策略**自顶向下**递归的分治方式构造,从训练元组集和与之相关联的类标号开始,随着树的构建,训练集递归地划分成较小的子集。构造过程大致如下: 1. 构造**根结点**,根据**属性选择度量**(例如ID3的信息增益)来选择合适的属性作为根结点。 2. 根据根结点的属性值(可能是离散的,连续的或二值的)**分枝**,每个分枝代表元组在该属性下可能满足的条件。

2018-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除