自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (1)
  • 收藏
  • 关注

转载 R语言简介

我们Hadoop+R爱好者建立了一个Hadoop和R语言的学习交流的高级LV1 QQ群(279441740),欢迎加入学习、交流、讨论、下载。R语言简介R语言是一种为统计计算和图形显示而设计的语言环境,是贝尔实验室(Bell Laboratories)的Rick Becker、John Chambers和Allan Wilks开发的S语言的一种实现,提供了一系列统计和图形显示工具。S语

2012-10-30 09:46:34 4720

原创 赢在数据<R+Hadoop>群电子刊物《数据赢家》第二期出炉

《数据赢家》是QQ群279441740推出的用于推广和交流R语言、Hadoop技术的开放式电子刊物。 R语言是什么?根据百度百科的描述,R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具(http://baike.baidu.com/view/942569.htm)。R是开源免费的,同时也是

2013-03-13 10:15:44 1266

原创 赢在数据(R+Hadoop)群电子刊物《数据赢家》第三期出炉

《数据赢家》是QQ群279441740(赢在数据群)推出的用于推广和交流R语言、Hadoop技术的开放式电子刊物。 R语言是什么?根据百度百科的描述,R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具(http://baike.baidu.com/view/942569.htm)。R是开源免费的,同时也

2013-03-12 22:04:43 1916

原创 《统计建模与R软件》练习答案-第2章

Exercise 1.x=c(1,2,3)y=c(4,5,6)e=c(1,1,1)z=2*x+y+eprint(z)pn=crossprod(x,y)pw=tcrossprod(x,y)print(pn)print(pw)Exercise 2.A=matrix(c(1:20), nrow=4, ncol=5)print(A)B=mat

2013-01-03 14:41:08 1239

转载 Hbase Shell 命令官方详解

alter Alter column family schema; pass table name and a dictionary specifying new column family schema. Dictionaries are described below in the GENERAL NOTES section. Dicti

2012-12-25 14:04:20 1038

转载 Hadoop相关的考题

//Hadoop基础Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是A.    HadoopB.    NutchC.    LuceneD.    Solr答案:D配置Hadoop时,JAVA_HOME包含在哪一个配置文件中A.    hadoop-default.xmlB.    hadoop-env.shC

2012-12-19 11:33:04 7475

原创 HBase的RegionServer参数配置

hbase.hregion.max.filesize默认值:256M说明:在当前ReigonServer上单个Reigon的最大存储空间,单个Region超过该值时,这个Region会被自动split成更小的region。调优:小region对split和compaction友好,因为拆分region或compact小region里的storefile速度很快,内存占用低。缺点是s

2012-12-19 10:56:26 6931

原创 HBase的RegionServer宕机处理的探讨

HBase的RegionServer宕机超过一定时间后,HMaster会将其所管理的region重新分布到其他活动的RegionServer上,由于数据和日志都持久在HDFS中,该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。但是重新分配的region需要根据日志恢复原RegionServer中的内存MemoryStore表,这会导致宕机的region在这段时间内无法对外提供服

2012-12-19 10:51:44 3591

原创 HBase的一些问题和答案

1.我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别?由于HBase的数据文件在HDFS系统中,因此本质上很难修改和删除数据。在HBase中,修改和删除数据都是增加1个新版本的数据(时间戳为最新),旧版本的数据并没有发生变化。Oracle没有数据的版本概念,在修改和删除数据时不会增加新的数据记录,直接对老数据进行修改或删除。

2012-12-19 10:51:09 3369

转载 Hive任务优化基础

1.少用count(distinct);  select count(distinct cookie_id) from lxw_t1;  性能差的原因:只会用一个reduce去处理;  优化的写法:select count(1) from (select cookie_id from lxw_t1 group by cookie_id) x;  配合set mapred.red

2012-12-11 20:11:56 1188

转载 Hive任务优化--控制hive任务中的map数和reduce数

一、    控制hive任务中的map数:1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例:a)    假设input目录下有1个文

2012-12-11 20:10:56 16441 4

转载 MapReduce: 一个巨大的倒退

下面的一篇文章是一些RDBMS系统的大牛人从多个方面对MapReduce的批评,不妨一看。前言databasecolumn 的数据库大牛们(其中包括PostgreSQL的最初伯克利领导:Michael Stonebraker)最近写了一篇评论当前如日中天的MapReduce 技术的文章,引发剧烈的讨论。我抽空在这儿翻译一些,一起学习。译者注:这种 Tanenbaum vs. L

2012-12-11 20:01:27 1656

转载 Hadoop的调度器总结

随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照

2012-12-11 16:53:22 656

转载 爱情、婚姻、幸福、外遇、生活

一天,弟子问佛陀:什么是爱情?  佛陀说:我请你穿越这片稻田,去摘一株最大最金黄的麦穗回来,但是有个规则:你不能走回头路,而且你只能摘一次。于是弟子去做了。  许久之后,他却空着手回来了。  佛陀问他:怎么空手回来了?  弟子说道:当我走在田间的时候,曾看到过几株特别大特别灿烂的麦穗,可是,我总想着前面也许会有更大更好的,于是没有摘;但是,我继续走的时候,看到的麦穗,总觉得还不如先

2012-12-07 21:14:52 876

转载 基于C++的Hadoop Map/Reduce框架--HCE

Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!、Facebook、淘宝、中移动、百度、腾讯等公司都在借助Hadoop进行海量数据处理。Hadoop系统性能不仅取决于任务调度器的分配策略,还受到分配后实际任务执行效率的影响,任务执行常常涉及读取、排序、归并、压缩、写入等具体阶段。HCE计算框架是一个开源项目,旨在通过优化任务执行的各个阶段,提升整个Hadoop系统的效

2012-12-07 11:40:23 9803 1

转载 Hadoop安全模式的理解

安全模式异常:在hadoop的实践过程中,系统启动的时候去修改和删除文件有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannotdelete/user/hadoop/input. Name node is in safe mode.从字面上来理解:“Name nodeis in safe mode.”hadoop的namenode处

2012-12-07 11:26:41 10692

转载 2012年12月R语言TIOBE榜单(排名25)

2012-12-07 11:16:06 772

原创 Hadoop全分布模式安装和测试

我们Hadoop+R爱好者建立了一个Hadoop和R语言的学习交流的高级LV1 QQ群(279441740),欢迎加入学习、交流、讨论、下载。 1.    安装和配置运行环境虚机:  OracleVM VirtualBox 4.xLinux:    CentOS5.5(2.6.18-194.el5)Java:      JDK1.6.0_18(安装在/usr/java/jdk1

2012-11-27 09:45:21 1238

转载 32类计算机与数学领域最为重要的算法

奥地利符号计算研究所(Research Institutefor Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序。A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。

2012-11-27 09:40:36 619

转载 MapR浅析

1. 天上掉下个MapRMapR成立于2009年,但是引起媒体广泛关注是缘由GIGAOM网站2011年3月的一篇报道 《MapR,Cloudera的新对手》(http://gigaom.com/cloud/meet-mapr-a-competitor-to-hadoop-leader-cloudera/),报道这么描述MapR:“构建一个HDFS的私有替代品,这个替代品比当前的开源版本快三

2012-11-27 09:36:26 3982

转载 历届图灵奖得主名单

◎ 1966  A. J. Perlis 高级编程技术和编译器架构◎ 1967  Maurice V. Wilkes设计出第一台具有内置存储程序的计算机EDSAC◎ 1968  Richard W. Hamming数值方法、自动编码系统、错误检测及错误校验码◎ 1969  Marvin Minsky创造、推进和提升人工智能◎ 1970  J. H. Wilkinso

2012-11-12 21:30:19 2200

转载 2012年11月 R语言TIOBE榜单(排名28)

2012-11-12 10:47:51 1642

原创 R语言学习图书指南

1. 入门读物    R 的帮助文档中提供了一些入门的读物,比如《An Introduction to R》(下载地址http://cran.csdb.cn/doc/manuals/R-intro.pdf),是R早期入门的权威读物,这本书的中文版叫《R导论》(2006年翻译,译者丁国徽ghding@gmail.com)。    另一本早期的著名入门读物是《R for Beginners

2012-11-06 09:16:18 1943 1

原创 rJava包的安装和使用

1.在标准R环境中执行> install.packages("rJava")我的R环境是Windows 7 SP1 中文专业版(32位),R 2.15.2版本。上述命令执行后会有弹出对话框要求选择CRAN的镜像,可以选择美国的镜像地址。等待一段时候后rJava包就下载安装好了,它的基本目录是%R_HOME%/library/rJava。2.执行library("rJava"

2012-11-05 13:52:58 19078

转载 数据挖掘潜规则

声明:本文指的是做数据挖掘这行,不是数据仓库我干这行有几年了,见了很多人,干了很多公司,爆一爆这个行业的状况吧……让后来人有所了解,也让猎头挖人挖的有点方向,起码和candidates聊天的时候不至于什么也不清楚谈不明白,不清楚价值,等等个人的经验,干这行最重要的第一是人,第二是项目,绝对的人才加上做合适的项目才能成长起来,其余都是扯淡的,就算理论知识再完备,没有机遇也难以成长。

2012-11-02 10:43:35 1878 1

翻译 Kaggle.com的数据挖掘大奖赛

旧金山的大雾或纽约的交通是很容易预测的。但其它的东西,如股市对大额交易的反应或HIV患者病情的发展状况,是非常复杂的。这就是新创公司Kaggle.com打算做的事情。该公司组织了一场竞赛,参与者通过分析大量数据来尝试做出似乎不可能的预测。Kaggle聚集了许多有数据科学背景的人,包括博士、研究生、教授和在IBM、谷歌等公司工作的人,为它们提供机会来竞争解决大数据难题,并赢得奖金。竞赛主办方提供

2012-11-01 09:58:10 2759

转载 R(1.5.1)和其他统计语言的性能比较(2003年)

原文链接http://www.sciviews.org/benchmark/benchmark1.htmlSpeed comparison of various number crunching packages (version 1)Speed of execution is an important aspect

2012-10-30 09:34:19 1873

转载 R(1.9.0)和其他统计语言的性能比较(2003年)

原文链接http://www.sciviews.org/benchmark/Speed comparison of various number crunching packages (version 2)Speed of execution is an important aspect in choosing a d

2012-10-30 09:25:09 1493

原创 Apache CXF 2.7学习

1. 从http://cxf.apache.org/download.html上下载CXF 2.7正式版安装ZIP包apache-cxf-2.7.0.zip文件,解压到D:\apache-cxf-2.7.0目录。在D:\apache-cxf-2.7.0\samples目录下执行mvn eclipse:eclipse命令,将CXF所有的demo转换成eclipse能够直接import的项目文件结构。

2012-10-25 15:21:22 3774

转载 R语言处理字符串

用于字符串分割的函数:如strsplit('123abcdefgabcdef','ab')[[1]][1] "123"  "cdefg""cdef"#字符串连接:paste() #paste(..., sep = "", collapse = NULL)#字符串分割:strsplit()#strsplit(x, split, extended = T

2012-10-22 20:01:48 1485

转载 R语言常用函数参考

基本一、数据管理vector:向量 numeric:数值型向量 logical:逻辑型向量character;字符型向量 list:列表 data.frame:数据框c:连接为向量或列表 length:求长度 subset:求子集seq,from:to,sequence:等差序列rep:重复 NA:缺失值 NULL:空对象sort,order,unique,rev:排

2012-10-22 20:00:27 1622

翻译 计算机数学和算法习题和解答(1~3)

1. If we list all the natural numbers below 10 that are multiples of 3 or 5, we get 3, 5, 6 and 9. The sum of these multiples is 23.Find the sum of all the multiples of 3 or 5 below 1000.找到小于100

2012-10-22 11:05:23 516

转载 这是一个年轻妈妈的亲身经历真实的事情

1月31号,我带女儿从娘家去婆婆家。本来想做卧铺的,但是没有买到,上车也没有补到卧铺票。   9点多上车的,还好是靠窗。旁边是一个看起来有60多岁的老婆婆,带着一个7、8岁的小孙子。一路上对我很是照顾,不停和我聊天,还帮我打下手。火车上人很多,老婆婆很帮忙,还不停的提醒我小心坏人注意保管物品。那个小孙子还不时的和我女儿玩,我女儿还差几天1岁,对一切都特别有兴趣,时不时的就揪老婆婆的头发或者

2012-10-15 11:45:21 3501

转载 Smalltalk简史

Smalltalk 的根源可回溯到七十年代早期,那时在 Xerox Palo Alto 研究中心 (Parc) 的 Dynabook 计划的环境下探索出的许多想法被结合到 Smalltalk/ObjectWorks 编程系统中。这个 "Dynabook" 基于一个梦想:成人和儿童拥有便宜的笔记本大小的个人计算机,有能力处理他们所有的与信息有关的需求。在加入 Xerox Parc 之前, 这个想法的

2012-10-10 12:26:15 1928

原创 电信计费业务规则案例分析

规则列表:1.如果客户本月本地通话满100 元,那么赠送下月120分钟本地通话费,30条短消息。2.如果客户当前所有费用超过300 元,超过部分以八折优惠,并送免来电显示功能费。3.“打多送更多计划:对于签约在网1 年,每月最低消费200 元,赠送来话畅听+语音信箱/移动秘书;每月消费200 元以上,下月送20 元;300 元以上,下月送60 元;500 元以上送100 元;700 以

2012-09-27 10:18:53 876

原创 交强险责任限额及基础费率表

If 曾经酒后驾驶行为,then 费率上调30%If 曾经闯红灯,then费率上调10%If 曾经驾驶与准驾车型不符的车辆,then费率上调20%If 曾经在驾驶证暂扣期间驾驶的,then费率上调20%If曾经发生交通违法行为5次(含)以上的,then费率上调30% If上年度未发生有责任交通事故的,then费率下调10%If上二个年度未发生有责任交通事故的,then费

2012-09-27 10:15:29 1361

转载 使用ILOG JRules 开发保险应用系统

http://www.ibm.com/developerworks/cn/websphere/library/techarticles/1103_sumf_iloginsurance/1103_sumf_iloginsurance.html?ca=drs-

2012-09-27 10:10:35 899

转载 ILOG JRules 规则引擎运行模式简介

http://www.ibm.com/developerworks/cn/websphere/library/techarticles/1008_songxc_jrulesengine/1008_songxc_jrulesengine.html?cm_re=masthead-_-backcountry-_-top_level

2012-09-27 10:08:22 766

转载 ILOG JRules 规则集应用与客户端的集成

http://www.ibm.com/developerworks/cn/websphere/library/techarticles/1009_wangzg_jrulesinter/1009_wangzg_jrulesinter.html

2012-09-27 10:05:45 626

转载 Smalltalk发展历程

见图如下

2012-09-21 15:57:55 583

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除