- 博客(8)
- 资源 (2)
- 收藏
- 关注
转载 分类器的测试和验证
转载自:《数据挖掘:实用机器学习技术》在使用分类算法的时候,通常需要去验证分类算法的准确性。最简单常用的方法就是将数据划分成三部分:训练集,验证集,测试集。训练集用于创建分类器,验证集用于优化或调整分类器的参数,而测试集用于计算优化的分类器的误差率。一旦误差率确定,就可以将测试集合并到训练集中,将由此产生的新分类器用于实践。上述方法在对于大数据集的时候可以采用,然而,如果数据集不是很大
2011-12-27 11:23:30 3243
原创 VIM翻页
好土鳖啊,现在才知道。。。Ctrl + F:向下翻一页Ctrl + B:向上翻一页Ctrl + u :向上翻半页Ctrl + d :向下翻半页{ 和 } 是跳段落(即找空行),如果文件没有空行,那就直接跳到头和尾了
2011-12-23 15:33:34 2553
转载 shell基础
1. 变量VARNAME=valueexport VARNAME=value:导出环境变量输出变量:echo $VARNAMEecho ${VARNAME}2. 命令代换:'或$()DATE=`date`DATE=$(date)3. 算术代换:$(())VAR=300VAR2=$(($VAR+3))4. 单引号保留
2011-12-21 20:55:33 638
转载 数据的标准化
原文:http://webdataanalysis.net/data-analysis-method/data-normalization/ 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 其中最典型的就是数据的
2011-12-16 15:06:52 1243
原创 几个基础概念
极差:range = max -min方差:更适合离散趋势的描述标准差变异系数:标准差/均值,值越大,离散程度越大切比雪夫定理:在任何一个数据集中,至少有(1- 1/z^2)的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值定理含义:1. 至少有75%的数据项与平均数的距离在2个标准差之内2. 至少有89%的数据项与平均数的距离在3个标准差之内
2011-12-13 01:12:48 636
转载 Hadoop reduce多个输出
转自:Hadoop in Action在hadoop中,想要reduce支持多个输出,有两种实现方式。第一种就是继承MultipleTextOutputFormat类,重写generateFileNameForKey方法。public static class PartitionByCountryMTOF extends MultipleTextOutputFormat
2011-12-05 14:18:11 4261
原创 mahout使用KMeans算法
mahout提供了内存中和分布式的两种KMeans聚类实现。下面是内存中KMeans的代码示例,示例代码使用了最简单的一维向量作为输入: /** * Tests KMeans cluster algorithm in memory, note the test uses only 1-D vector * i.e., a vector of a single do
2011-12-01 12:59:17 5316
原创 mahout使用PFP和FPG算法
mahout提供了内存中的FPG和分布式的PFP两种算频繁项集的方法,其中PFP实现上也是将feature分组,然后在节点上独立地运行FPG算法。PFP默认分组为50,如果项的数量特别多,可能需要考虑修改这个值。先来看一下mahout 0.5的FPG测试代码: public void testMaxHeapFPGrowth() throws Exception { FPGr
2011-12-01 12:24:41 5046
豆瓣备份工具
2013-02-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人