自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

jelek的专栏

大家好,新博客地址为 www.jelekinn.com,欢迎大家访问或订阅。

  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 博客迁移通知

大家好,我的个人博客内容都转移到 www.jelekinn.com。本站内容不会删除,欢迎喜欢我的朋友移步到新的连接。

2015-04-10 14:04:32 734

原创 Python 数据分析(一)[MAC]

数据:bit.ly 的 1.usa.gov数据读取:### read dataimport jsonpath = 'pydata-book-master/ch02/usagov_bitly_data2012-03-16-1331923249.txt'records = [json.loads(line) for line in open(path)]任务:

2015-04-02 16:04:46 3257 2

原创 MAC 下搭建Python分析环境 (安装 Enthought Canopy Express)

一、简介      Enthought Canopy Express,原来是EPD(Enthought Python Distributions) Free,是来自Enthought的面向科学计算的Python安装包。      简单来说,在使用Python时可能会用到 Numpy、matplotlib、IPython、SciPy等库,比较省事一点就可以直接安装Enthought Cano

2015-03-19 22:21:26 7479 1

原创 MAC 简单设置终端编辑环境

一、打开终端1.通过 前往 找到 实用工具2.如有必要可将 终端 拖拽至桌面作为快捷方式二、修改默认风格1.打开终端后,通过 终端 找到 偏好设置 2.选择 “Pro” 并 选择 默认 操作(这个可以按照个人的喜好来定)三、给当前用户配置设置不同的提示符颜色1.关闭当前终端,并重新打开2.进入当前用户主目录

2015-03-08 14:16:20 5806

原创 hadoop mr reduce类变量使用问题整理

源数据假定有一份学生成绩数据每行数据格式为:学号,课程ID,成绩。目标我们用mr实现计算每个学生的平均成绩、有效课程数与总分。步骤1.用map读取数据。key:学号value:成绩2.用reduce计算得到平均成绩和总成绩,并输出最终结果。这里仅给出reduce参考代码(暂不考虑数据异常等问题):public static class Reduce exte

2015-01-19 12:32:03 733

原创 如何实现脚本每周几定期发送邮件?

这里需要解决两个方面的问题:1.如何控制发送时间?

2014-11-05 10:53:38 2087

翻译 介绍机器学习基本概念(七张图)

主要涉及机器学习一些基本概念:偏差与方差权衡,避免过度拟合,贝叶斯推论奥卡姆原则,特征组合,非线性偏差函数和其他以图片方式展示的概念。Deniz Yuret, Feb 2014. 我发现当我试图解释基本的机器学习概念时,总会涉及到同样的少数图片。下方是一些我非常想阐明的图。1.偏差(bias)VS 方差权衡(variancetradeoff)2.避免过度拟合(overfitti

2014-03-21 10:24:09 947

翻译 NULL:缺失数据本身也可能是有价值的

在统计学中,数据值存在丢失通常可以被划分为两种情况:值随机缺失和值非随机缺失。在本文中,我们重点考虑第二种情况。有时候可以用一个新的变量来标识某一变量值存在丢失,该新的变量同样具有预测或分析的价值。若丢失不是随机的,通常会有一种潜在的解释,而这种解释很大程度上依赖于你需要分析预测的类型。不过如果能够了解到为何存在丢失,就能够在分析潜在母体(population)特征时,避免理解上的偏见。 

2014-01-15 19:04:53 786

原创 CentOS(64Bit) 安装eclipse

1.首先需要下载合适的eclipse版本。链接:http://www.eclipse.org/downloads/一般选择较新的版本,比如 Eclipse Standard 4.3.12.下载后,拷贝到 /opt/eclipse-standard/下(该路径可自定义):eclipse-standard-kepler-SR1-linux-gtk-x86_64.tar.gz

2013-11-12 16:38:21 2234

原创 在 Map[Reduce] 的 setup 中读取 HDFS 文件夹信息

有时候,我们想在 Map 或者 Reduce 执行前读取一些数据信息(量相对比较小),就可以在 setup 中来完成该操作。相关定义1.在HDFS上某一文件夹下存放用户信息列表:/user/data/userinfo/part-00000/user/data/userinfo/part-00001.../user/data/userinfo/part-00020

2013-11-08 16:46:18 6271 1

原创 几种非交互执行脚本的方式

一般情况下,我们执行某一个脚本或者任务时,会有交互信息,例如 MapReduce 计算、Hbase 入库等。但是有时候我们不是很关心交互信息,希望它可以一直执行,中间结果可以保存在一个日志文件里面。怎么办呢,下面有几种方式可以解决这个问题。定义脚本的名称及路径为:/home/test/test.sh执行中间结果存储文件为:/home/test/output.log登录环

2013-11-05 15:27:53 1490

原创 用MapReduce 模拟日志发送,在Storm的Spout中接收UDP数据

背景:在Storm测试环境中,有时我们无法拿到真实的发送日志数据。为了便于测试,可以用模拟的数据来代替。主要步骤:1.了解带发送的数据文件格式,及存储方式,比如存放在HDFS上,这样很方便MapReduce来读取;2.编写MapReduce逻辑,读取对应的日志文件,配置接收端的ip及端口信息,以可控制的速率发送日志;3.在Spout中,编写UDP接收服务器,用队列的方式接收发送

2013-08-11 09:16:47 1716

转载 对 Map HashMap LinkedHashMap TreeMap 的深入认识

HashMap,LinkedHashMap,TreeMap都属于Map。 1.基本含义Map 主要用于存储键(key)值(value)对,根据键得到值,因此键不允许键重复,但允许值重复。 HashMap 是一个最常用的Map,它根据键的 HashCode 值存储数据,根据键可以直接获取它的值,具有很快的访问速度。HashMap最多只允许一条记录的键为Null;允许多条记录的

2013-06-24 15:05:17 560

转载 String,StringBuffer与StringBuilder的区别??

String 字符串常量StringBuffer 字符串变量(线程安全)StringBuilder 字符串变量(非线程安全)简要的说, String 类型和 StringBuffer 类型的主要性能区别其实在于 String 是不可变的对象, 因此在每次对 String 类型进行改变的时候其实都等同于生成了一个新的 String 对象,然后将指针指向新的 String 对象,所

2013-06-20 17:48:52 438

转载 HashMap遍历的两种方式

第一种: Map map = new HashMap(); Iterator iter = map.entrySet().iterator(); while (iter.hasNext()) {     Map.Entry entry = (Map.Entry) iter.next();     Object key = entry.getKey();     Object

2013-04-22 18:20:53 498

转载 web.xml 中的listener、 filter、servlet 加载顺序及其详解

在项目中总会遇到一些关于加载的优先级问题,近期也同样遇到过类似的,所以自己查找资料总结了下,下面有些是转载其他人的,毕竟人家写的不错,自己也就不重复造轮子了,只是略加点了自己的修饰。        首先可以肯定的是,加载顺序与它们在 web.xml 文件中的先后顺序无关。即不会因为 filter 写在 listener 的前面而会先加载 filter。最终得出的结论是:listener -

2013-03-26 09:43:02 467

转载 Yum错误的问题 No module named yum

最近在折腾RedHat,我安装的版本是rhel-server-6.1-x86_64。RHEL 6.1默认是没有gcc和gcc-c++环境的,而且我也没有$购买正版服务。只能想办法本地安装了,总结方法如下:上传安装镜像rhel-server-6.1-x86_64-dvd.iso,然后将镜像文件挂,如/mnt# mount -o loop rhel-server-6.1-x86_6

2013-03-20 12:13:04 821

原创 shell 中 date 做 循环变量

1. 需求:有时,可能希望脚本能够按照一段时间中,每天为一个参数来执行某个任务。例如开始时间为20130101,结束时间为20130301,由于日期变化不是简单的增加1,这里可以做如下处理。2. 定义变量:start_date=20130101end_date=20130301#shFIle 为某一sh文件 其参数为日期 [ 格式 20130101 ]shFile ="/h

2013-03-07 16:34:38 1313

原创 SPSS Modeler 建模示例---细胞样本分类(SVM)学习

一.背景&目标:一位医学研究人员获得了一个包含大量人体细胞样本特征的数据集,这些样本是从极有可能患上癌症的患者身上提取的。通过对原始数据进行分析,发现良性样本与恶性样本之间的许多特征显著不同。该研究人员希望开发一个 SVM 模型,使该模型可以使用其他患者样本中的这些细胞特征值尽早发现他们的样本是良性还是恶性。二.实例数据位置:[安装目录]\IBM\SPSS\Modeler\14\Dem

2013-03-04 17:58:54 11203 4

原创 定时任务 获取系统日期的方法(昨天日期)

在设置定时任务时,我们希望获取比如昨天的日期,怎么办呢?1.crontab -e 打开 定时任务编辑。2.新增一条格式如下:10 12 * * * sh  test.sh `date -d last-day +\%Y\%m\%d`  >> log_`date +\%Y\%m\%d`.log  2>&13.保存退出 解释:1. 10 12 * * *表示每天

2013-01-15 12:09:38 3176

转载 用ssh-keygen来设置ssh无密码登录

在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.该工具做linux系统的远程管理是非常安全的。telnet,因为其不安全性,在linux系统中被搁置使用了。ssh有一套很有用的工具,其中的ssh-keygen可以用来生成private和public密钥.将生成的public密钥拷贝到远程机器后,可以使ssh到另外一台机器的登陆不用密码.具体方

2013-01-03 09:36:13 323

转载 SSH 含义 [转自维基百科]

SSH为Secure Shell的缩写,由IETF的网络工作小组(Network Working Group)所制定;SSH为创建在应用层和传输层基础上的安全协议。传统的网络服务程序,如FTP、POP和Telnet其本质上都是不安全的;因为它们在网络上用明文传送数据、用户帐号和用户口令,很容易受到中间人(man-in-the-middle)攻击方式的攻击。就是存在另一个人或者一台机器冒充真正的

2013-01-02 18:56:08 990

转载 百分位数(Percentile)

四分位数:将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。最小的四分位数称为下四分位数,所有数值中,有四分之一小于下四分位数,四分之三大于下四分位数。中点位置的四分位数就是中位数。最大的四分位数称为上四分位数,所有数值中,有四分之三小于上四分位数,四分之一大于上四分位数。也有叫第25百分位数、第75百分位数的。The portion of a frequency d

2012-09-11 18:37:09 25320

转载 InnoDB还是MyISAM 再谈MySQL存储引擎的选择

两种类型最主要的差别就是Innodb 支持事务处理与外键和行级锁.而MyISAM不支持.所以MyISAM往往就容易被人认为只适合在小项目中使用。我作为使用MySQL的用户角度出发,Innodb和MyISAM都是比较喜欢的,但是从我目前运维的数据库平台要达到需求:99.9%的稳定性,方便的扩展性和高可用性来说的话,MyISAM绝对是我的首选。原因如下:1、首先我目前平台上承载

2012-05-20 13:36:11 517

转载 MySQL学习笔记:InnoDB和MyISAM的差别

InnoDB和MyISAM是在使用MySQL最常用的两个表类型,各有优缺点,视具体应用而定。基本的差别为:MyISAM类型不支持事务处理等高级处理,而InnoDB类型支持。MyISAM类型的表强调的是性能,其执行数度比InnoDB类型更快,但是不提供事务支持,而InnoDB提供事务支持已经外部键等高级数据库功能。        MyIASM是IASM表的新版本,有如下扩展:

2012-05-20 13:34:46 450

转载 Matlab中矩阵的平方和矩阵中每个元素的平方

设t =[2 4  4 2]则>> t.^2ans =4 164 16这里网上的似乎是错的,正确的应该是ans =4 1616 4而>> t^2ans =12 2412 24这里网上的似乎是错的,正确的应该是ans =20 1616 20可见t^2是矩阵平方,即t×t,t.^2是矩阵中每个元素的平方。

2012-03-12 10:11:04 29107 1

SDI OpenCV 程序(打开,保存图片)

在系统安装了 vc++ 6.0 及 opencv(1.0) 后,本程序实现打开 和保存图片的功能。

2009-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除