自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(424)
  • 收藏
  • 关注

转载 数据挖掘十大算法

什么是机器学习;机器学习的主要任务: 分类,回归。 分类:是将实例数据划分到合适的分类中。 回归:是用于预测数值型数据。比如:数据拟合曲线(通过给定数据点的最优拟合曲线)。 如何选择合适的算法; 如何保证算法的正确性: (1)确保算法应用可以正确处理简单数据。 (2)将现实世界中得到的数据格式化为算法可以处理的格式。 (3)将步骤2得到的数据输入到步骤1的算

2013-12-18 18:03:12 1976

转载 win7待机时间设置,睡眠时间设置

首先,单击“开始”找到“控制面板”步骤阅读2打开“控制面板”以后,单击右侧的“硬件和声音”步骤阅读3找到“电源选项”中的“更改计算机睡眠时间”步骤阅读4然后,就进入更改界面了,你可以更改“使计算机进入睡眠状态的时间”即,电脑在无人操作的情况下待机时间,这一点要注意的是:电源模式的不同,更

2013-12-18 14:05:51 1786

原创 navicat里导入和导出.sql文件

Navicat向 MySQL导入.sql文件。打开连接connection,选择你要导入的数据库,双击打开(或者新建一个),然后右键该数据库,选“运行批次任务文件(execute sql file)”,然后选择文件。 或者新建一个查询,从那里选择导入,选择文件。

2013-12-17 16:36:27 24188

转载 windows下mysql免安装配置

我下载的是mysql-5.5.20-win32.zip版本1、解压2、配置环境变量(让系统知道你的bin在哪个位置)path里面设置到安装目录的bin目录3、复制一个my-huge.ini 另存一个文件my.ini打开my.ini,在最后面添加basedir=D:\softbak\web\mysql-5.5.20-win32\mysql-5.5.20-win32datadi

2013-12-17 15:07:33 1130

原创 saiku的安装教程

简介Saiku是一个模块化的开源分析套件,它提供轻量级的OLAP(联机分析处理),并且可嵌入、可扩展、可配置。环境准备1、JDK5及以上版本。2、Saiku Server,当前最新版本为2.4,下载地址:http://analytical-labs.com/downloads.php。安装1、安装JDK并配置JAVA_HOME环境变量。2、解压saiku-ser

2013-12-16 20:02:06 20202 25

转载 hadoop 数据倾斜

数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。 阿里的这篇比较实用,通俗易懂:数据倾斜总结 http://www

2013-12-13 16:36:32 12167

原创 hive使用过的基本命令

use不能忘show databases; 后,用use aso进入database:aso。 show columns from table_name from database_name; 或show columns from database_name.table_name;解释:显示表中列名称show grants for user_name@localhost;解

2013-12-12 21:33:44 1461

原创 hadoop任务监控页面namenode:50030(在hadoop配置中查找集群jobtracker的ip,访问50030)

公司集群,配置的hadoop。执行job,想去看看运行状态,却不知道jobtracker的机器ip:查询hadoop 的jobtrack机器的ip,就查看文件conf/mapred-site.xmlmapred.job.trackernode1:49001mapred.local.dir/home/hadoop/hadoop_home/var

2013-12-12 21:27:53 8291

原创 有关java的引用传递,直接操作对象本身。直接删除BE的value中某值

HashSet refRegions = BE.get(regionName);   HashSet values = new HashSet();   values.addAll(refRegions);      if(values.contains("AllValues")){    refRegions.clear();    refRegions.add("All

2013-12-12 16:09:19 1235

原创 Treemap 有序的hashmap。用于排序

TreeMap:有固定顺序的hashmap。在需要排序的Map时候才用TreeMap。Map。在数组中我们是通过数组下标来对其内容索引的,键值对。 HashMap HashMap 用哈希码快速定位一个键,但是元素存储无序。HashMap的实现是假定元素是放在一个圆形的环上,每次put进来的元素根据其hashCode计算该元素在圆环上索引,把该元素放到合适的位置。注意:其put(

2013-12-12 15:55:55 5019

原创 ssh keygen命令实现免密码通信(git库获取操作权限:开发人员添加到git库中,获取操作权限)

先看两个机器实现免密码登陆通讯:假设 A 为客户机器,B为目标机;要达到的目的:A机器ssh登录B机器无需输入密码;加密方式选 rsa|dsa均可以,默认dsa做法:1、登录A机器 2、ssh-keygen -t [rsa|dsa],将会生成密钥文件和私钥文件 id_rsa,id_rsa.pub或id_dsa,id_dsa.pub     我在本地windows

2013-12-12 15:15:17 3761

转载 git config配置文件

一.Git已经在你的系统中了,你会做一些事情来客户化你的Git环境。你只需要做这些设置一次;即使你升级了,他们也会绑定到你的环境中。你也可以在任何时刻通过运行命令来重新更改这些设置。      Git有一个工具被称为git config,它允许你获得和设置配置变量;这些变量可以控制Git的外观和操作的各个方面。这些变量可以被存储在三个不同的位置:  1./etc/gitconfig 文

2013-12-12 14:03:27 1777

原创 微信---风云际会霸天下

无线端的三分天下群雄逐鹿,微信一统移动无线端,广告推广线上线下,视频方向网购方向游戏唯一毒不死的 app的开发和应用 腾讯,引天下创意为我用。再加上 写轮眼似的高精尖复制团队(腾讯人全是卡卡西),土豪的推广方式。

2013-12-09 16:26:38 1269

原创 Hadoop基本知识,(以及MR编程原理)

1,一个map可能在多个节点上运行:    如果map运行过慢,就会在别的节点上重开一个,两个谁先跑完就取谁的结果,然后杀掉另一个。  2,如果有百个节点左右的集群想要做hadoop版本升级,有没有什么好办法?希望能稳定,最好不影响每天凌晨的定时作业。     升级一般都要一起升,因为是跨版本。如果是不跨版本,比如1.x中各版本之间升级则可以不用。如果是1.0升到2.0,则需要停集

2013-12-09 16:09:33 4221

原创 java获取时间

string startTimeStr = ((String) jsonCampaign.get(configObj.getKeyword(config.START_TIME)));          if(!startTimeStr.contains(" ")){                startTimeStr += " 00:00:00";            }  

2013-12-09 16:04:48 1022

转载 java时间操作

java中的时间操作不外乎这四种情况:1、获取当前时间2、获取某个时间的某种格式3、设置时间4、时间的运算好,下面就针对这四种情况,一个一个搞定。一、获取当前时间有两种方式可以获得,第一种,使用Date类。j2SE的包里有两个Date类,一个是java.sql.Date,一个是java.util.Date这里,要使用java.util.Date。获取当前

2013-12-09 15:21:47 856

原创 Git diff

把本地的代码和index中的代码进行比较,或者是把index中的代码和本地仓库中的代码进行比较。1)Git diff 比较工作目录和Index中的代码。2) Git diff - - cached 比较index和本地仓库中的代码。 但发现本地有更新,又是在linux环境下,没有gitk图形操作界面,那就直接是用git diff 会将所有的不同列举。"-"表

2013-12-05 16:33:10 852

原创 git rebase之前需要commit才行

更新好本地代码后,git fetch,接着合并,但是git rebase 不行,git status一看,有很多更新的文件。于是 git add --后,再rebase,还是不行。注意,rebase之前,如果本地有更新,一定要先commit,才行,否则合并不了。

2013-12-05 16:32:16 2713 1

转载 HashMap是无序的

一、 说明HashMap是基于哈希表Map的实现。设计初衷主要是为了解决键值(key-value)对应关联的,HashMap的优势是可以很快的根据键(key)找到该键对应的值(value),但是我们在使用的过程中需要注意一下,HashMap是一种无序的存储结构。HashMap的实现是假定元素是放在一个圆形的环上,每次put进来的元素根据其hashCode计算该元素在圆环上索引,把该元素放到合适

2013-12-02 18:15:53 3970

原创 mysql随笔

MySQL查询优化器--非SPJ的优化  MySQL查询优化器--非SPJ优化(一)--GROUPBY优化http://blog.163.com/li_hx/blog/static/1839914132013101503920225/MySQL查询优化器--非SPJ优化(二)--ORDERBY优化http://blog.163.com/li_hx/blog/static/18399

2013-12-02 16:32:43 788

原创 hadoop小知识札记

hadoop实现全局变量: 只读的可以,可修改的不行,只读的可以通过configuration 或者分布式缓存实现。  hadoop做图像处理时,每个map读入一个图片,每个map读入一张图片,然后所有的map还要读取一张全局图片再两张图片一起处理每个map读取一个,会产生太多的map,可以一个map读取多个。但最好,把文件放到HBase中,用MR处理。因为hdfs存大量小

2013-12-02 16:29:45 1399

转载 我读过的真正内行的文章:揭开大数据面纱

(文章转自中国统计网)写的太好了一、大数据没那么神秘最近一年来谈大数据的很火,到处都在说大数据,各种的以大数据为名头的会议、活动也比比皆是,你方唱罢我登台,好不热闹。有网友问我,好多科技公司言必称自己是大数据,实际情况呢?我回答:什么样的数据叫大,是G级还是T级、E级、Z级,乃至B级?这个真不好定义,既然无法定义,那么反复强调自己的大数据,未免滑稽。据我的观察,在必称自己是

2013-12-02 10:02:06 2559 1

原创 云时代的风云变换

读了IBM的云观点,我相信,他也要开始发力了在大数据的时代,云处理已经成为一种普遍的处理手段,至少目前为止,云框架还是最普遍接受,并且应用性最广泛的框架。不同于传统的分布式并行计算,云拥有者太多可以广泛的使用的特点。大数据是什么,就是青年人的性爱,大家都在谈论,可没人知道真正怎么做,大家都很感兴趣,却不知道到底是什么,都以为别人在搞,自己要假装很懂的样子, 在中国,但凡是家企业

2013-11-29 11:26:56 931

转载 ibm云时代的转型

好几个月了,有两个说法很流行。第一个说法,是老有人嚷嚷思科快被SDN整趴下了;第二个说法,是老有人嚷嚷IBM在云计算时代完全落后了,要倒下了。刚开始我还跟有些人辩论:1、裁员是西方企业常用的战略调整方法,对个体也许冷酷对企业却属常规;2、这两个企业不但财务状况很strong,而且技术上的leadership短期内无法替代;3、IBM也好思科也好,的确面临困难,但是它们的转型方向

2013-11-29 11:09:43 1841

原创 代码中简单实现四舍五入(加上0.5取整)适用于所有语言

int representGoal = (int) (graph.goal*representRatio+0.5);只需要加0.5取整。

2013-11-29 10:41:22 5062

转载 新手阅读大型代码库

Casey问我:“对于新手,有什么有针对性的诀窍来阅读大型代码库吗?”碰巧,我认为这是一个非常好的问题。我觉得想要成为一个优秀的开发者,阅读代码库并弄清清楚内部是怎么回事的能力非常重要。在你的职业生涯中你会中途加入一个现有的项目并被要求迅速融入进去。或者,甚至更难,会有一个项目丢给你让你自己一个人搞清楚。最坏的情景就是你被带入一个项目,要你替换掉让工程运行失败的“那些肆无忌惮的*杂

2013-11-27 16:05:44 1121

原创 易信,不改难成大事

微信 一家独大,称霸 智能手机市场的趋势,基本已经成型。而最可怕的是,腾讯土豪的推广方式,不断扩大的应用服务。这时候易信的退出本来是一个有力的竞争者,但易信真令人失望。我们几个安装上就卸载了。其实最为吸引人的方式就免流量,可是安装后,没有朋友聊天,我都不知道跟谁聊。门槛高,限制广。让大部分人感到没有切实感到免费流量。我都感觉收了欺骗所以大部分人一看麻烦就直接卸载了。

2013-11-27 14:07:05 1207

原创 shell脚本调用python脚本的路径问题

[deve_test_user@A3-Tracker-redis-deve script]$ vim testobseve.sh   1 file_path=`dirname $0`  2 echo $file_path  3   4 testfile="$file_path/observereport"  5 python $testfile/test.pytest.

2013-11-22 18:07:25 9314

原创 shell脚本里面相互调用时路径不要用pwd获取

场景:脚本 observerReport.sh 里面调用 mergerReport.sh,observerReport.sh在script/目录, mergerReport.sh在下一级子目录script/merge里,此时,如果mergerReport.sh里面用pwd生成路径,并不会是 script/merge,而是当前脚本的执行路径,也就是script。所以要用 dirname

2013-11-22 17:51:29 4464

原创 粒子滤波(PF:Particle Filter)

粒子滤波指:通过寻找一组在状态空间中传播的随机样本来近似的表示概率密度函数,再用样本均值代替积分运算,进而获得系统状态的最小方差估计的过程,波动最小,这些样本被形象的称为“粒子”,故而叫粒子滤波。 粒子滤波(PF: Particle Filter)的思想基于蒙特卡洛方法(Monte Carlo methods),它是利用粒子集来表示概率,可以用在任何形式的状态空间模型上。其核心思想

2013-11-21 17:52:53 3315

原创 linux的link命令

sudo ln -s 源文件 目标文件sudo ln -s /usr/local/mysql/bin/mysqladmin /sbin/mysqladmin 参  数:-b或--backup #删除,覆盖目标文件之前的备份-d或-F或--directory #建立目录的硬连接-f或--force #强行建立文件或目录的连接,不论文件或目录是否存在-i或--interac

2013-11-20 17:08:56 2593

原创 git stash

当在本地开发一段时间后,突然有了变动,比如想修复一个bug,但是本地新开发的代码不想上传,为了保持线上稳定性。这是,用stash 暂存当前工作,回到git库上最近一次的提交,等完成动作后,再恢复到开发时的状态,继续工作。首先,添加所有当前以开发的变动:git add  .然后保存改动,并跳到最后一次提交:git stash则当前状态会最近一次提交,完成工作如修复bug,

2013-11-19 19:09:53 1682

原创 脚本自动化 ant

用ant,shell下也可以用make。1,ant 是一个自动化编译工具,安装使用。2,编写build.xml,核心,写明进行哪些操作,删,建,编译,javac,java等,从例子可以看出每个操作都有固定格式,各种语言都有自己的包,下载安装,即可调用对应的api(按格式添加对应参数,执行即可)。具体内容需要查询。举例如下:        #参数文件

2013-11-19 11:31:04 1601

原创 测试驱动开发TDD(test drive development)

classpath,路径列表。告诉java需要加载类的存放位置, java会去搜寻。这种机制实现了动态加载。java -cp 加载类路径 执行类名   : 加载类路径可是绝对,也可以相对。  代码重构机制:1,保证没有重复2,干净,有表现力,能清楚知道意图。如 一,去除不必要的局部变量(作用:中间传值),将函数结构直接传给下一个函数。二,代码中不得出现无意常数,或是字符

2013-11-18 16:42:43 1595

转载 IDE

IDE(Integrated Development Environment,集成开发环境)。DE集成开发环境(简称IDE)软件是用于程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面工具。该程序可以独立运行,也可以和其它程序并用。例如,BASIC语言在微软办公软件中可以使用,可以在微软Word文档中编写WordBasic程序。IDE为用户使用Visual Basic、J

2013-11-18 10:50:20 2090

转载 Apache Hadoop 2.0.2-alpha

原文出处http://hadoop.apache.org/docs/r2.0.2-alpha/hadoop-yarn/hadoop-yarn-site/Federation.htmlHDFSF分为2层 namespace和block storageNamespace         由目录,文件和快组成         支持所有的namespace 文件相关的操作,例如增,

2013-11-15 16:10:56 1041

原创 hadoop的节点间的通信

一个DataNode上的Block是唯一的,多个DataNode可能有相同的Block。2)通信场景:(1)NameNode的映射表上不永久保存每个DataNode所对应的block信息,而是通过DataNode启动时的上报,来更新NameNode上的映射表(DataNode和Block)。(2)DataNode和NameNode建立连接后,会定期心跳检测更新信息,心跳的返回也包含Na

2013-11-15 16:05:57 3205 1

原创 数据库事务的4个特性ACID

原子性(Atomicity[ætə'mɪsɪti])原型atomic、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)

2013-11-12 14:51:16 1298

转载 redis简介(keeper实时报表的基本部分)

网上有一篇介绍Redis的文章,由浅入深地讲解了Redis:http://blog.mjrusso.com/2010/10/17/redis-from-the-ground-up.html。强烈建议对Redis有兴趣或需要使用的朋友阅读这篇文章。提到Redis,第一反应就是内存k/v缓存,并且很多人会拿它与Memcached相比较,毕竟他们都是以内存作为存储介质的。 如果简单地比较Redis与

2013-11-12 14:16:42 2297

转载 HADOOP中的CRC数据校验文件

Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件,并在读写的时候进行校验,确保数据的准确性。比如我们遇到的这个Case:执行的命令:hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt  multisteps_output 2011-01-25出

2013-11-12 13:58:13 5062

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除