2016年01月_mllhxn

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 spark 实战笔记case4

package de.zalando.sla_spark_sqlimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SLA_parquetSQL { def main(args: Array[String]) {

2016-01-30 19:09:01 553

val mapper = sc.textFile("/user/hive/warehouse/sla.db/e*_30days/").map(line => line.split("\073")).map(line => ( if (line(0)=="598017" || line(0)=="614420" || line(0)=="614421") line(5) else line(4), (

2016-01-30 19:07:31 939

原创 spark 实战笔记case2

val t1 = sc.textFile("/tmp/db_case1/order_created/*").map(line => line.split("\t"))val t2 = sc.textFile("/tmp/db_case1/order_picked/*").map(line => line.split("\t"))val t3 = sc.textFile("/tmp/db_case

2016-01-30 19:06:19 470

原创 spark 实战笔记case1

val tt1 = Array(("1", ( "t1", "2014-03-01 00:00:00.000+01") ),("1", ( "t1", "2014-03-01 00:01:00.000+01") ),("2", ( "t1", "2014-03-02 00:00:00.000+01") ),("2", ( "t1", "2014-03-03 00:00:00.000+01")

2016-01-30 19:05:26 470

原创 cdh PostgreSQL

centos用yum安装postgresql的路径为 /var/lib/pgsql/中。1.安装postgresql9.0 yum 仓库 rpm -i http://yum.postgresql.org/9.2/redhat/rhel-6-x86_64/pgdg-redhat92-9.2-7.noarch.rpm2.安装新版本的Postgresql yum install postgres

2016-01-30 18:46:59 2784

原创 kafka zookeeper 监控

https://github.com/yahoo/kafka-manager 这个好https://github.com/smartloli/kafka-eagle 17-1-10编译的下载地址链接：http://pan.baidu.com/s/1bo0m9Oj 密码：73ai nohup bin/kafka-manager -Dconfig.file=conf/application

2016-01-28 15:46:33 1128

转载 node-zk-browser 安装配置

1，cd /usr/local 下载nodejs，wget https://github.com/joyent/node/archive/v0.8.14.zip 解压，unzip v0.8.14.zip编译nodejscd node-0.8.14./configure –prefix=/usr/local/nodejs/nodejs-0.8.14makesudo make install设置环

2016-01-27 18:43:53 850

原创逻辑回归算法实例

horseColicTraining.txt 2.000000 1.000000 38.500000 66.000000 28.000000 3.000000 3.000000 0.000000 2.000000 5.000000 4.000000 4.000000 0.000000 0.000000 0.000000

2016-01-24 12:10:03 3103 1

原创线性回归算法实例

1.000000 0.067732 3.176513 1.000000 0.427810 3.816464 1.000000 0.995731 4.550095 1.000000 0.738336 4.256571 1.000000 0.981083 4.560815 1.000000 0.526171

2016-01-23 18:12:13 1078

原创 Python 插件安装

机器学习用的插件 1，安装matplotlib官网直接下载：http://matplotlib.sourceforge.net/2，安装six官网下载：http://www.pythonhosted.org/six/这个是源码包，解压之后，到解压目录，命令行执行直接 python setup.py install 就可以安装完成如果是whl 文件 pip install 下载目录\

2016-01-23 18:02:00 802

原创逻辑回归算法理论

极大似然估计极大似然估计步骤极大似然估计示例示例引入逻辑回归逻辑回归的由来 logistic函数(sigmoid函数) sigmoid函数求导 Sigmoid函数性质极大似然估计参数回顾梯度下降法梯度上升法批处理梯度上升法随机梯度上升法批处理梯度上升法随机梯度上升法随机梯度上升法结果分析

2016-01-23 12:30:54 661

转载常见Oracle HINT用法

1 /+ALL_ROWS/ 表明对语句块选择基于开销的优化方法,并获得最佳吞吐量,使资源消耗最小化. 例如: SELECT /*+ALL+_ROWS*/ EMP_NO,EMP_NAM,DAT_IN FROM BSEMPMS WHERE EMP_NO='SCOTT'; 2 /+FIRST_ROWS/ 表明对语句块选择基于开销的优化方法,并获得最佳响应时间,使资源消耗最小化. 例如:

2016-01-22 10:14:51 445

转载 ratio_to_report 分析函数求占比

drop table test; create table test ( name varchar(20), kemu varchar(20), score number ); insert into test values('testa','yuwen',10); insert into test values('testa','英语',100); insert into te

2016-01-22 09:50:31 3273

转载 Oracle分组ROLLUP、GROUP BY、GROUPING、GROUPING SETS区别和作用

1.ROLLUPROLLUP的作用相当于SQL> set autotrace onSQL> select department_id,job_id,count(*) from employees group by department_id,job_id union select department_id,null,count(*) from employe

2016-01-21 21:10:44 920

原创线性回归算法理论

一元线性回归模型建立最小二乘法建立模型最小二乘—直接求极值法直接求极值法直接求极值法示例解析式求解过程梯度下降法梯度下降法一般步骤梯度下降法一般步骤—梯度求解梯度下降法一般步骤—参数更新批处理梯度下降法随机梯度下降法梯度下降法考虑因素求最优解

2016-01-20 20:39:55 873

原创决策树算法实例 scala

young myope no reduced no lenses young myope no normal soft young myope yes reduced no lenses young myope yes normal hard young hyper no reduced no lenses young

2016-01-20 20:34:50 2087

原创决策树算法实例

#-*- coding: utf-8 -*- '''Created on Oct 12, 2010Decision Tree Source Code for Machine Learning in Action Ch. 3@author: Peter Harrington'''from math import log import operator#训练数据集def crea

2016-01-20 20:32:38 1446

原创决策树算法理论

决策树分类决策树模型呈树形结构，在分类中，表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合。决策树组成部分决策树是一种描述对样本实例(天气情况)进行分类(进行户外活动，取消户外活动)的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点分为内部结点和叶结点。内部结点表示一个特征属性（空气质量/天气/温度/风力），有向边表示对应的特征属

2016-01-19 20:57:03 746

原创贝叶斯算法实例 scala

package mlia.bayesimport breeze.linalg._object Prep { def loadDataSet: (Array[Array[String]], Vector[Int]) = { val postingList = Array( Array("my", "dog", "has", "flea", "problems", "help", "

2016-01-13 21:03:05 919

原创贝叶斯算法实例

#-*- coding: utf-8 -*- #添加中文注释from numpy import *#过滤网站的恶意留言#样本数据 def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not',

2016-01-13 20:02:14 6783

原创贝叶斯算法理论

Bayes公式先验概率和后验概率贝叶斯文本分类示例朴素贝叶斯分类决策最小错误率决策最小风险决策最小风险贝叶斯决策—基本思想最小风险贝叶斯决策—损失函数最小风险贝叶斯决策—步骤最小风险癌细胞实例

2016-01-13 19:58:07 626

原创 idea 使用快捷键

CtrlCtrl + F 在当前文件进行文本查找（必备） Ctrl + R 在当前文件进行文本替换（必备） Ctrl + Z 撤销（必备） Ctrl + Y 删除光标所在行或删除选中的行（必备） Ctrl + X 剪切光标所在行或剪切选择内容 Ctrl + C 复制光标所在行或复制选择内容 Ctrl + D 复制光标所在行或

2016-01-11 18:58:23 549

转载 NumPy的详细教程

基础篇 NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在NumPy中维度(dimensions)叫做轴(axes)，轴的个数叫做秩(rank)。例如，在3D空间一个点的坐标[1, 2, 3]是一个秩为1的数组，因为它只有一个轴。那个轴长度为3.又例如，在以下例子中，数组的秩为2(它有两个维度).第一个维度长度为2,第

2016-01-11 18:39:24 475

原创邻近算法实例

约会 40920 8.326976 0.953952 3 14488 7.153469 1.673904 2 26052 1.441871 0.805124 1 75136 13.147394 0.428964 1 38344 1.669788 0.134296 1 72993 10.14

2016-01-07 09:48:53 802

原创邻近算法理论

K近邻模型由三个基本要素组成：距离度量； k值的选择；分类决策规则K近邻算法的核心在于找到实例点的邻居。估算不同样本之间的相似性(SimilarityMeasurement)通常采用的方法就是计算样本间的“距离”(Distance)，相似性度量方法有：欧氏距离、余弦夹角、曼哈顿距离、切比雪夫距离等。欧氏距离欧氏距离(EuclideanDistance)是最易于理解的一种距离计算

2016-01-05 19:31:32 1404

转载 Oracle的rollup、cube、grouping sets函数

Oracle的group by除了基本用法以外，还有3种扩展用法，分别是rollup、cube、grouping sets。rollup假设有一个表test，有A、B、C、D、E5列。如果使用group by rollup(A,B,C)，首先会对(A、B、C)进行GROUP BY，然后对(A、B)进行GROUP BY，然后是(A)进行GROUP BY，最后对全表进行GROUP BY操作。roll

2016-01-04 14:53:17 370

idea 使用快捷键.docx

2016-01-22

CentOS_Ganglia安装.doc

亲测安装成功，CentOS_Ganglia安装.doc，CentOS_Ganglia安装.doc

2016-01-22

matplotlib-1.4.0.win-amd64-py2.7.exe

2016-01-22

numpy-MKL-1.8.0.win-amd64-py2.7.exe

win7完美运行，win10出问题的话python path需要自己手配，而且要管理员权限运行

2016-01-22

KafkaOffsetMonitor-assembly-0.2.0

亲测可用哦 java -jar KafkaOffsetMonitor-assembly-0.2.0.jar \ com.quantifind.kafka.offsetapp.OffsetGetterWeb \ --zk xxx \ --port 8086 \ --refresh 10.seconds \ --retain 7.days &

2016-01-22

ext-2.2.zip

亲测可用 ext-2.2.zip，用于oozie安装的插件，

2016-01-22

storm实时代码

storm -kafka 存储到hbase中

2015-04-15

storm 代码

Storm Real-time Processing Cookbook

2014-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mllhxn的专栏

原创 spark 实战笔记case4

原创 spark 实战笔记case3

原创 spark 实战笔记case2

原创 spark 实战笔记case1

原创 cdh PostgreSQL

原创 kafka zookeeper 监控

转载 node-zk-browser 安装配置

原创逻辑回归算法实例

原创线性回归算法实例

原创 Python 插件安装

原创逻辑回归算法理论

转载常见Oracle HINT用法

转载 ratio_to_report 分析函数求占比

转载 Oracle分组ROLLUP、GROUP BY、GROUPING、GROUPING SETS区别和作用

原创线性回归算法理论

原创决策树算法实例 scala

原创决策树算法实例

原创决策树算法理论

原创贝叶斯算法实例 scala

原创贝叶斯算法实例

原创贝叶斯算法理论

原创 idea 使用快捷键

转载 NumPy的详细教程

原创邻近算法实例

原创邻近算法理论

转载 Oracle的rollup、cube、grouping sets函数

idea 使用快捷键.docx

CentOS_Ganglia安装.doc

matplotlib-1.4.0.win-amd64-py2.7.exe

numpy-MKL-1.8.0.win-amd64-py2.7.exe

KafkaOffsetMonitor-assembly-0.2.0

ext-2.2.zip

storm实时代码

storm 代码

空空如也