自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (2)
  • 收藏
  • 关注

转载 分类器的测试和验证

转载自:《数据挖掘:实用机器学习技术》在使用分类算法的时候,通常需要去验证分类算法的准确性。最简单常用的方法就是将数据划分成三部分:训练集,验证集,测试集。训练集用于创建分类器,验证集用于优化或调整分类器的参数,而测试集用于计算优化的分类器的误差率。一旦误差率确定,就可以将测试集合并到训练集中,将由此产生的新分类器用于实践。上述方法在对于大数据集的时候可以采用,然而,如果数据集不是很大

2011-12-27 11:23:30 3243

原创 VIM翻页

好土鳖啊,现在才知道。。。Ctrl + F:向下翻一页Ctrl + B:向上翻一页Ctrl + u :向上翻半页Ctrl + d :向下翻半页{ 和 } 是跳段落(即找空行),如果文件没有空行,那就直接跳到头和尾了

2011-12-23 15:33:34 2553

转载 shell基础

1. 变量VARNAME=valueexport VARNAME=value:导出环境变量输出变量:echo $VARNAMEecho ${VARNAME}2. 命令代换:'或$()DATE=`date`DATE=$(date)3. 算术代换:$(())VAR=300VAR2=$(($VAR+3))4. 单引号保留

2011-12-21 20:55:33 638

转载 数据的标准化

原文:http://webdataanalysis.net/data-analysis-method/data-normalization/  数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。  其中最典型的就是数据的

2011-12-16 15:06:52 1243

原创 几个基础概念

极差:range = max -min方差:更适合离散趋势的描述标准差变异系数:标准差/均值,值越大,离散程度越大切比雪夫定理:在任何一个数据集中,至少有(1- 1/z^2)的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值定理含义:1. 至少有75%的数据项与平均数的距离在2个标准差之内2. 至少有89%的数据项与平均数的距离在3个标准差之内

2011-12-13 01:12:48 636

转载 Hadoop reduce多个输出

转自:Hadoop in Action在hadoop中,想要reduce支持多个输出,有两种实现方式。第一种就是继承MultipleTextOutputFormat类,重写generateFileNameForKey方法。public static class PartitionByCountryMTOF extends MultipleTextOutputFormat

2011-12-05 14:18:11 4261

原创 mahout使用KMeans算法

mahout提供了内存中和分布式的两种KMeans聚类实现。下面是内存中KMeans的代码示例,示例代码使用了最简单的一维向量作为输入: /** * Tests KMeans cluster algorithm in memory, note the test uses only 1-D vector * i.e., a vector of a single do

2011-12-01 12:59:17 5316

原创 mahout使用PFP和FPG算法

mahout提供了内存中的FPG和分布式的PFP两种算频繁项集的方法,其中PFP实现上也是将feature分组,然后在节点上独立地运行FPG算法。PFP默认分组为50,如果项的数量特别多,可能需要考虑修改这个值。先来看一下mahout 0.5的FPG测试代码: public void testMaxHeapFPGrowth() throws Exception { FPGr

2011-12-01 12:24:41 5046

豆瓣备份工具

所有的东西都在配置文件里,主要包括: accesstoken:这个初始为空,需要通过oauth认证之后才能得到 accesstokensecret:同上 apikey: 豆瓣API的api key。我的是0e9de689fedd51532bd9b39dfc97f3f9,也可以自己申请一个,然后填自己的。 apisecret: 豆瓣API的secret。我的是379697627fa46e08,也可以自己申请一个,然后填自己的。 username:如果在公司局域网内有代理,需要填这个。通常是域帐户名(或你电脑的登录名,如果你的电脑是连到域里的)。如果没用代理就填空。 password:域帐户的登录密码,如果没用代理就填空。 domain:登录域,如果没用代理就填空。 proxyserver:代理服务器。注意不需要http://前缀。直接例如:proxyserver.dangdang.com,即可。如果没用代理就填空。 port:代理端口,如果没用代理就填0。 userid:豆瓣的用户ID。如e.neverme或1341234567。 这些都填了之后,点“备份”就行啦。由于豆瓣API的限制,每分钟只能请求40次,所以其实每做一个请求,程序都会sleep几秒(不然就被封了)。如果你的东西非常多,那可能需要一些时间。 目前已知的问题是豆邮只有标题没有内容,我说没有备份。其他应该都还好。

2013-02-15

豆瓣电台桌面版,同步MSN正在播放的音乐

豆瓣电台桌面程序,能在MSN上显示正在收听的音乐。

2010-02-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除