2011年12月_inte_sleeper

12月 11月 09月 08月 07月 06月

转载分类器的测试和验证

转载自：《数据挖掘：实用机器学习技术》在使用分类算法的时候，通常需要去验证分类算法的准确性。最简单常用的方法就是将数据划分成三部分：训练集，验证集，测试集。训练集用于创建分类器，验证集用于优化或调整分类器的参数，而测试集用于计算优化的分类器的误差率。一旦误差率确定，就可以将测试集合并到训练集中，将由此产生的新分类器用于实践。上述方法在对于大数据集的时候可以采用，然而，如果数据集不是很大

2011-12-27 11:23:30 3243

原创 VIM翻页

好土鳖啊，现在才知道。。。Ctrl + F：向下翻一页Ctrl + B：向上翻一页Ctrl + u ：向上翻半页Ctrl + d ：向下翻半页{ 和 } 是跳段落（即找空行），如果文件没有空行，那就直接跳到头和尾了

2011-12-23 15:33:34 2553

转载 shell基础

1. 变量VARNAME=valueexport VARNAME=value：导出环境变量输出变量：echo $VARNAMEecho ${VARNAME}2. 命令代换：'或$()DATE=`date`DATE=$(date)3. 算术代换：$(())VAR=300VAR2=$(($VAR+3))4. 单引号保留

2011-12-21 20:55:33 638

转载数据的标准化

原文：http://webdataanalysis.net/data-analysis-method/data-normalization/　　数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。　　其中最典型的就是数据的

2011-12-16 15:06:52 1243

原创几个基础概念

极差：range = max -min方差：更适合离散趋势的描述标准差变异系数：标准差/均值，值越大，离散程度越大切比雪夫定理：在任何一个数据集中，至少有(1- 1/z^2)的数据项与平均数的距离在z个标准差之内，其中z是任意大于1的值定理含义：1. 至少有75%的数据项与平均数的距离在2个标准差之内2. 至少有89%的数据项与平均数的距离在3个标准差之内

2011-12-13 01:12:48 636

转载 Hadoop reduce多个输出

转自：Hadoop in Action在hadoop中，想要reduce支持多个输出，有两种实现方式。第一种就是继承MultipleTextOutputFormat类，重写generateFileNameForKey方法。public static class PartitionByCountryMTOF extends MultipleTextOutputFormat

2011-12-05 14:18:11 4261

原创 mahout使用KMeans算法

mahout提供了内存中和分布式的两种KMeans聚类实现。下面是内存中KMeans的代码示例，示例代码使用了最简单的一维向量作为输入： /** * Tests KMeans cluster algorithm in memory, note the test uses only 1-D vector * i.e., a vector of a single do

2011-12-01 12:59:17 5316

原创 mahout使用PFP和FPG算法

mahout提供了内存中的FPG和分布式的PFP两种算频繁项集的方法，其中PFP实现上也是将feature分组，然后在节点上独立地运行FPG算法。PFP默认分组为50，如果项的数量特别多，可能需要考虑修改这个值。先来看一下mahout 0.5的FPG测试代码： public void testMaxHeapFPGrowth() throws Exception { FPGr

2011-12-01 12:24:41 5046

所有的东西都在配置文件里，主要包括： accesstoken：这个初始为空，需要通过oauth认证之后才能得到 accesstokensecret：同上 apikey：豆瓣API的api key。我的是0e9de689fedd51532bd9b39dfc97f3f9，也可以自己申请一个，然后填自己的。 apisecret：豆瓣API的secret。我的是379697627fa46e08，也可以自己申请一个，然后填自己的。 username：如果在公司局域网内有代理，需要填这个。通常是域帐户名（或你电脑的登录名，如果你的电脑是连到域里的）。如果没用代理就填空。 password：域帐户的登录密码，如果没用代理就填空。 domain：登录域，如果没用代理就填空。 proxyserver：代理服务器。注意不需要http://前缀。直接例如：proxyserver.dangdang.com，即可。如果没用代理就填空。 port：代理端口，如果没用代理就填0。 userid：豆瓣的用户ID。如e.neverme或1341234567。这些都填了之后，点“备份”就行啦。由于豆瓣API的限制，每分钟只能请求40次，所以其实每做一个请求，程序都会sleep几秒（不然就被封了）。如果你的东西非常多，那可能需要一些时间。目前已知的问题是豆邮只有标题没有内容，我说没有备份。其他应该都还好。

2013-02-15

豆瓣电台桌面版，同步MSN正在播放的音乐

豆瓣电台桌面程序，能在MSN上显示正在收听的音乐。

2010-02-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Cody的笔记本