自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (9)
  • 收藏
  • 关注

原创 spark 实战笔记case4

package de.zalando.sla_spark_sqlimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SLA_parquetSQL { def main(args: Array[String]) {

2016-01-30 19:09:01 553

原创 spark 实战笔记case3

val mapper = sc.textFile("/user/hive/warehouse/sla.db/e*_30days/").map(line => line.split("\073")).map(line => ( if (line(0)=="598017" || line(0)=="614420" || line(0)=="614421") line(5) else line(4), (

2016-01-30 19:07:31 939

原创 spark 实战笔记case2

val t1 = sc.textFile("/tmp/db_case1/order_created/*").map(line => line.split("\t"))val t2 = sc.textFile("/tmp/db_case1/order_picked/*").map(line => line.split("\t"))val t3 = sc.textFile("/tmp/db_case

2016-01-30 19:06:19 470

原创 spark 实战笔记case1

val tt1 = Array(("1", ( "t1", "2014-03-01 00:00:00.000+01") ),("1", ( "t1", "2014-03-01 00:01:00.000+01") ),("2", ( "t1", "2014-03-02 00:00:00.000+01") ),("2", ( "t1", "2014-03-03 00:00:00.000+01")

2016-01-30 19:05:26 470

原创 cdh PostgreSQL

centos用yum安装postgresql的路径为 /var/lib/pgsql/中。1.安装postgresql9.0 yum 仓库 rpm -i http://yum.postgresql.org/9.2/redhat/rhel-6-x86_64/pgdg-redhat92-9.2-7.noarch.rpm2.安装新版本的Postgresql yum install postgres

2016-01-30 18:46:59 2784

原创 kafka zookeeper 监控

https://github.com/yahoo/kafka-manager 这个好https://github.com/smartloli/kafka-eagle 17-1-10编译的 下载地址链接:http://pan.baidu.com/s/1bo0m9Oj 密码:73ai nohup bin/kafka-manager -Dconfig.file=conf/application

2016-01-28 15:46:33 1128

转载 node-zk-browser 安装配置

1,cd /usr/local 下载nodejs,wget https://github.com/joyent/node/archive/v0.8.14.zip 解压,unzip v0.8.14.zip编译nodejscd node-0.8.14./configure –prefix=/usr/local/nodejs/nodejs-0.8.14makesudo make install设置环

2016-01-27 18:43:53 850

原创 逻辑回归 算法 实例

horseColicTraining.txt 2.000000 1.000000 38.500000 66.000000 28.000000 3.000000 3.000000 0.000000 2.000000 5.000000 4.000000 4.000000 0.000000 0.000000 0.000000

2016-01-24 12:10:03 3103 1

原创 线性回归 算法 实例

1.000000 0.067732 3.176513 1.000000 0.427810 3.816464 1.000000 0.995731 4.550095 1.000000 0.738336 4.256571 1.000000 0.981083 4.560815 1.000000 0.526171

2016-01-23 18:12:13 1078

原创 Python 插件安装

机器学习用的插件 1, 安装matplotlib官网直接下载:http://matplotlib.sourceforge.net/2, 安装six官网下载:http://www.pythonhosted.org/six/这个是源码包, 解压之后,到解压目录,命令行执行 直接 python setup.py install 就可以安装完成 如果是whl 文件 pip install 下载目录\

2016-01-23 18:02:00 802

原创 逻辑回归 算法 理论

极大似然估计 极大似然估计步骤 极大似然估计示例 示例引入逻辑回归 逻辑回归的由来 logistic函数(sigmoid函数) sigmoid函数求导 Sigmoid函数性质 极大似然估计参数 回顾梯度下降法 梯度上升法 批处理梯度上升法 随机梯度上升法 批处理梯度上升法 随机梯度上升法 随机梯度上升法结果分析

2016-01-23 12:30:54 661

转载 常见Oracle HINT用法

1 /+ALL_ROWS/ 表明对语句块选择基于开销的优化方法,并获得最佳吞吐量,使资源消耗最小化. 例如: SELECT /*+ALL+_ROWS*/ EMP_NO,EMP_NAM,DAT_IN FROM BSEMPMS WHERE EMP_NO='SCOTT'; 2 /+FIRST_ROWS/ 表明对语句块选择基于开销的优化方法,并获得最佳响应时间,使资源消耗最小化. 例如:

2016-01-22 10:14:51 445

转载 ratio_to_report 分析函数求占比

drop table test; create table test ( name varchar(20), kemu varchar(20), score number ); insert into test values('testa','yuwen',10); insert into test values('testa','英语',100); insert into te

2016-01-22 09:50:31 3273

转载 Oracle分组ROLLUP、GROUP BY、GROUPING、GROUPING SETS区别和作用

1.ROLLUPROLLUP的作用相当于SQL> set autotrace onSQL> select department_id,job_id,count(*) from employees group by department_id,job_id union select department_id,null,count(*) from employe

2016-01-21 21:10:44 920

原创 线性回归 算法 理论

一元线性回归 模型建立 最小二乘法建立模型 最小二乘—直接求极值法 直接求极值法 直接求极值法示例 解析式求解过程 梯度下降法 梯度下降法一般步骤 梯度下降法一般步骤—梯度求解 梯度下降法一般步骤—参数更新 批处理梯度下降法 随机梯度下降法 梯度下降法考虑因素 求最优解

2016-01-20 20:39:55 873

原创 决策树 算法 实例 scala

young myope no reduced no lenses young myope no normal soft young myope yes reduced no lenses young myope yes normal hard young hyper no reduced no lenses young

2016-01-20 20:34:50 2087

原创 决策树 算法 实例

#-*- coding: utf-8 -*- '''Created on Oct 12, 2010Decision Tree Source Code for Machine Learning in Action Ch. 3@author: Peter Harrington'''from math import log import operator#训练数据集def crea

2016-01-20 20:32:38 1446

原创 决策树 算法 理论

决策树分类 决策树模型呈树形结构,在分类中,表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合。决策树组成部分 决策树是一种描述对样本实例(天气情况)进行分类(进行户外活动,取消户外活动)的树形结构。 决策树由结点(node)和有向边(directed edge)组成。结点分为内部结点和叶结点。内部结点表示一个特征属性(空气质量/天气/温度/风力),有向边表示对应的特征属

2016-01-19 20:57:03 746

原创 贝叶斯 算法 实例 scala

package mlia.bayesimport breeze.linalg._object Prep { def loadDataSet: (Array[Array[String]], Vector[Int]) = { val postingList = Array( Array("my", "dog", "has", "flea", "problems", "help", "

2016-01-13 21:03:05 919

原创 贝叶斯 算法 实例

#-*- coding: utf-8 -*- #添加中文注释from numpy import *#过滤网站的恶意留言#样本数据 def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not',

2016-01-13 20:02:14 6783

原创 贝叶斯 算法 理论

Bayes公式 先验概率和后验概率 贝叶斯文本分类示例 朴素贝叶斯分类决策 最小错误率决策 最小风险决策 最小风险贝叶斯决策—基本思想 最小风险贝叶斯决策—损失函数 最小风险贝叶斯决策—步骤 最小风险癌细胞实例

2016-01-13 19:58:07 626

原创 idea 使用快捷键

CtrlCtrl + F 在当前文件进行文本查找 (必备) Ctrl + R 在当前文件进行文本替换 (必备) Ctrl + Z 撤销 (必备) Ctrl + Y 删除光标所在行 或 删除选中的行 (必备) Ctrl + X 剪切光标所在行 或 剪切选择内容 Ctrl + C 复制光标所在行 或 复制选择内容 Ctrl + D 复制光标所在行 或

2016-01-11 18:58:23 549

转载 NumPy的详细教程

基础篇 NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在NumPy中维度(dimensions)叫做轴(axes),轴的个数叫做秩(rank)。例如,在3D空间一个点的坐标[1, 2, 3]是一个秩为1的数组,因为它只有一个轴。那个轴长度为3.又例如,在以下例子中,数组的秩为2(它有两个维度).第一个维度长度为2,第

2016-01-11 18:39:24 475

原创 邻近 算法 实例

约会 40920 8.326976 0.953952 3 14488 7.153469 1.673904 2 26052 1.441871 0.805124 1 75136 13.147394 0.428964 1 38344 1.669788 0.134296 1 72993 10.14

2016-01-07 09:48:53 802

原创 邻近 算法 理论

K近邻模型由三个基本要素组成: 距离度量; k值的选择; 分类决策规则K近邻算法的核心在于找到实例点的邻居。 估算不同样本之间的相似性(SimilarityMeasurement)通常采用的方法就是计算样本间的“距离”(Distance),相似性度量方法有:欧氏距离、余弦夹角、曼哈顿距离、切比雪夫距离等。 欧氏距离 欧氏距离(EuclideanDistance)是最易于理解的一种距离计算

2016-01-05 19:31:32 1404

转载 Oracle的rollup、cube、grouping sets函数

Oracle的group by除了基本用法以外,还有3种扩展用法,分别是rollup、cube、grouping sets。rollup假设有一个表test,有A、B、C、D、E5列。 如果使用group by rollup(A,B,C),首先会对(A、B、C)进行GROUP BY,然后对(A、B)进行GROUP BY,然后是(A)进行GROUP BY,最后对全表进行GROUP BY操作。roll

2016-01-04 14:53:17 370

idea 使用快捷键.docx

idea 使用快捷键.docx

2016-01-22

CentOS_Ganglia安装.doc

亲测 安装成功 ,CentOS_Ganglia安装.doc,CentOS_Ganglia安装.doc

2016-01-22

matplotlib-1.4.0.win-amd64-py2.7.exe

matplotlib-1.4.0.win-amd64-py2.7.exe

2016-01-22

numpy-MKL-1.8.0.win-amd64-py2.7.exe

win7完美运行,win10出问题的话python path需要自己手配,而且要管理员权限运行

2016-01-22

KafkaOffsetMonitor-assembly-0.2.0

亲测可用哦 java -jar KafkaOffsetMonitor-assembly-0.2.0.jar \ com.quantifind.kafka.offsetapp.OffsetGetterWeb \ --zk xxx \ --port 8086 \ --refresh 10.seconds \ --retain 7.days &

2016-01-22

ext-2.2.zip

亲测可用 ext-2.2.zip,用于oozie安装的插件,

2016-01-22

storm实时代码

storm -kafka 存储到hbase中

2015-04-15

storm 代码

Storm Real-time Processing Cookbook

2014-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除