- 博客(3)
- 资源 (2)
- 收藏
- 关注
转载 常用分类算法
分类算法通常需要经过两步:训练和分类。如下:训练:训练集——>特征选取——>训练——>分类器分类:新样本——>特征选取——>分类——>判决最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。下面对几种主要的分类方法做个简要介绍:(1)决策树决策树归纳是经典的分类算法。它采用自顶
2012-02-23 00:26:49 1787
原创 统计学笔记
基本概念1. 直方图按方块的面积衡量所占的比例(一般没有纵向刻度,可能会有密度尺度)2. 平均数和中位数中位数:直方图上左右两边面积相等3. 均方根(Root mean square)r.m.s = sqrt(n1^2 + n2^2 + ...)4. 标准差指出数列中的数离它们的平均数有多远s.d. = sqrt((与平均数的偏差)^2的平均数)
2012-02-08 20:14:48 1854
转载 hive QL(HQL)简明指南
同事整理的,大部分原文摘过来,有少量改动。1. 基本数据类型tinyint , smallint, int, bigint, float, double, boolean: true/false, string2. 基础运算符与函数A IS NULL 空A IS NOT NULL 非空 A LIKE B 模糊匹配A RLIKE B
2012-02-06 14:59:05 4671
豆瓣备份工具
2013-02-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人