- 博客(10)
- 资源 (8)
- 问答 (1)
- 收藏
- 关注
原创 sas导入外部数据文件
1.设在路径:c:"books"learning下有文本文件mydata.txt,其数据以空格格开,形式如下:M 50 68 155F 23 60 101M 65 72 220F 35 65 133M 15 71 166读入SAS的代码如下:data demographics;infile 'c:"books"learning"mydata.txt';
2012-10-31 16:36:47 24997
原创 hadoop外表数据文件路径查询
在hive中,外表是个很重要的组成部分,通过外表可以很方便进行数据的共享。因为普通的表会将数据文件拷贝自己的目录下,这样想要分享数据只能保存多份数据。但是外表很好的解决了这个问题。CREATE EXTERNAL TABLE sunwg_test09(id INT, name string)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘\
2012-10-29 00:29:49 4232
原创 Hadoop示例程序手动编译
首先确保hadoop已经正确安装、配置以及运行。拷贝WordCount.java到我们的文件夹,下载的hadoop里带有WordCount.java,路径为:hadoop-0.20.203.0/src/examples/org/apache/hadoop/examples/WordCount.java进行拷贝操作[plain] view plai
2012-10-28 18:36:30 3531 1
转载 拜占庭将军问题
一。拜占庭将军算法的背景:对于系统坏掉的风险,可以这样假设:我们的操作员可能会误操作、可能会被贿赂或背叛,系统本身可能就有木马程序,系统可能会被黑客或病毒占领,我们自己开发的系统可能有漏洞,我们的开发人员可能会留下后门,这些都可以导致系统坏掉。因此,在这些假设在变成可能的残酷现实中,生存技术是应真正被采用的一种信息安全技术。 入侵容忍体系就是生存技术中的核心。如果我们的网络和系统学会生存,
2012-10-23 14:17:46 2754
转载 Zookeeper全解析——Paxos作为灵魂
原计划在介绍完ZK Client之后就着手ZK Server的介绍,但是发现ZK Server所包含的内容实在太多,并不是简简单单一篇Blog就能搞定的。于是决定从基础搞起比较好。那么ZK Server最基础的东西是什么呢?我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server中对应的实现。先说Paxos,它是一个基于消息传递的一致性算法,Leslie Lamp
2012-10-23 00:45:15 1911
转载 分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC
.ROC上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看):Sensitivity(覆盖率,True Positive Rate)1-Specificity (Sp
2012-10-18 20:07:25 13173
转载 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
Posted on 2008/12/25 by 胡江堂跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现
2012-10-18 16:29:36 6177
原创 希腊字母大全
1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε
2012-10-10 14:48:56 3429
原创 KNN最近邻基于欧几里德距离的JAVA算法实现
本算法只适合学习使用,可以大致了解一下KNN算法的原理。算法作了如下的假定与简化处理:1.小规模数据集2.假设所有数据及类别都是数值类型的3.直接根据数据规模设定了k值4.对原训练集进行测试KNN实现代码如下:[java] view plaincopyprint?package KNN; /** * KNN结点类,用来存储最近邻的k
2012-10-07 02:49:01 8974 2
原创 贝叶斯的JAVA分类器实现
注:本算法的实现仅仅适用于小规模数据集的实验与测试,不适合用于工程应用算法假定训练数据各属性列的值均是离散类型的。若是非离散类型的数据,需要首先进行数据的预处理,将非离散型的数据离散化。算法中使用到了DecimalCaculate类,该类是java中BigDecimal类的扩展,用于高精度浮点数的运算。该类的实现同本人转载的一篇博文:对BigDecimal常用方法的归类中的Arit
2012-10-07 02:47:13 14603 4
Java动画、图形和极富客户端效果
2010-03-22
成都环境怎么样?
2010-11-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人