- 博客(26)
- 资源 (9)
- 收藏
- 关注
原创 spark 实战笔记case4
package de.zalando.sla_spark_sqlimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SLA_parquetSQL { def main(args: Array[String]) {
2016-01-30 19:09:01 553
原创 spark 实战笔记case3
val mapper = sc.textFile("/user/hive/warehouse/sla.db/e*_30days/").map(line => line.split("\073")).map(line => ( if (line(0)=="598017" || line(0)=="614420" || line(0)=="614421") line(5) else line(4), (
2016-01-30 19:07:31 939
原创 spark 实战笔记case2
val t1 = sc.textFile("/tmp/db_case1/order_created/*").map(line => line.split("\t"))val t2 = sc.textFile("/tmp/db_case1/order_picked/*").map(line => line.split("\t"))val t3 = sc.textFile("/tmp/db_case
2016-01-30 19:06:19 470
原创 spark 实战笔记case1
val tt1 = Array(("1", ( "t1", "2014-03-01 00:00:00.000+01") ),("1", ( "t1", "2014-03-01 00:01:00.000+01") ),("2", ( "t1", "2014-03-02 00:00:00.000+01") ),("2", ( "t1", "2014-03-03 00:00:00.000+01")
2016-01-30 19:05:26 470
原创 cdh PostgreSQL
centos用yum安装postgresql的路径为 /var/lib/pgsql/中。1.安装postgresql9.0 yum 仓库 rpm -i http://yum.postgresql.org/9.2/redhat/rhel-6-x86_64/pgdg-redhat92-9.2-7.noarch.rpm2.安装新版本的Postgresql yum install postgres
2016-01-30 18:46:59 2784
原创 kafka zookeeper 监控
https://github.com/yahoo/kafka-manager 这个好https://github.com/smartloli/kafka-eagle 17-1-10编译的 下载地址链接:http://pan.baidu.com/s/1bo0m9Oj 密码:73ai nohup bin/kafka-manager -Dconfig.file=conf/application
2016-01-28 15:46:33 1128
转载 node-zk-browser 安装配置
1,cd /usr/local 下载nodejs,wget https://github.com/joyent/node/archive/v0.8.14.zip 解压,unzip v0.8.14.zip编译nodejscd node-0.8.14./configure –prefix=/usr/local/nodejs/nodejs-0.8.14makesudo make install设置环
2016-01-27 18:43:53 850
原创 逻辑回归 算法 实例
horseColicTraining.txt 2.000000 1.000000 38.500000 66.000000 28.000000 3.000000 3.000000 0.000000 2.000000 5.000000 4.000000 4.000000 0.000000 0.000000 0.000000
2016-01-24 12:10:03 3103 1
原创 线性回归 算法 实例
1.000000 0.067732 3.176513 1.000000 0.427810 3.816464 1.000000 0.995731 4.550095 1.000000 0.738336 4.256571 1.000000 0.981083 4.560815 1.000000 0.526171
2016-01-23 18:12:13 1078
原创 Python 插件安装
机器学习用的插件 1, 安装matplotlib官网直接下载:http://matplotlib.sourceforge.net/2, 安装six官网下载:http://www.pythonhosted.org/six/这个是源码包, 解压之后,到解压目录,命令行执行 直接 python setup.py install 就可以安装完成 如果是whl 文件 pip install 下载目录\
2016-01-23 18:02:00 802
原创 逻辑回归 算法 理论
极大似然估计 极大似然估计步骤 极大似然估计示例 示例引入逻辑回归 逻辑回归的由来 logistic函数(sigmoid函数) sigmoid函数求导 Sigmoid函数性质 极大似然估计参数 回顾梯度下降法 梯度上升法 批处理梯度上升法 随机梯度上升法 批处理梯度上升法 随机梯度上升法 随机梯度上升法结果分析
2016-01-23 12:30:54 661
转载 常见Oracle HINT用法
1 /+ALL_ROWS/ 表明对语句块选择基于开销的优化方法,并获得最佳吞吐量,使资源消耗最小化. 例如: SELECT /*+ALL+_ROWS*/ EMP_NO,EMP_NAM,DAT_IN FROM BSEMPMS WHERE EMP_NO='SCOTT'; 2 /+FIRST_ROWS/ 表明对语句块选择基于开销的优化方法,并获得最佳响应时间,使资源消耗最小化. 例如:
2016-01-22 10:14:51 445
转载 ratio_to_report 分析函数求占比
drop table test; create table test ( name varchar(20), kemu varchar(20), score number ); insert into test values('testa','yuwen',10); insert into test values('testa','英语',100); insert into te
2016-01-22 09:50:31 3273
转载 Oracle分组ROLLUP、GROUP BY、GROUPING、GROUPING SETS区别和作用
1.ROLLUPROLLUP的作用相当于SQL> set autotrace onSQL> select department_id,job_id,count(*) from employees group by department_id,job_id union select department_id,null,count(*) from employe
2016-01-21 21:10:44 920
原创 线性回归 算法 理论
一元线性回归 模型建立 最小二乘法建立模型 最小二乘—直接求极值法 直接求极值法 直接求极值法示例 解析式求解过程 梯度下降法 梯度下降法一般步骤 梯度下降法一般步骤—梯度求解 梯度下降法一般步骤—参数更新 批处理梯度下降法 随机梯度下降法 梯度下降法考虑因素 求最优解
2016-01-20 20:39:55 873
原创 决策树 算法 实例 scala
young myope no reduced no lenses young myope no normal soft young myope yes reduced no lenses young myope yes normal hard young hyper no reduced no lenses young
2016-01-20 20:34:50 2087
原创 决策树 算法 实例
#-*- coding: utf-8 -*- '''Created on Oct 12, 2010Decision Tree Source Code for Machine Learning in Action Ch. 3@author: Peter Harrington'''from math import log import operator#训练数据集def crea
2016-01-20 20:32:38 1446
原创 决策树 算法 理论
决策树分类 决策树模型呈树形结构,在分类中,表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合。决策树组成部分 决策树是一种描述对样本实例(天气情况)进行分类(进行户外活动,取消户外活动)的树形结构。 决策树由结点(node)和有向边(directed edge)组成。结点分为内部结点和叶结点。内部结点表示一个特征属性(空气质量/天气/温度/风力),有向边表示对应的特征属
2016-01-19 20:57:03 746
原创 贝叶斯 算法 实例 scala
package mlia.bayesimport breeze.linalg._object Prep { def loadDataSet: (Array[Array[String]], Vector[Int]) = { val postingList = Array( Array("my", "dog", "has", "flea", "problems", "help", "
2016-01-13 21:03:05 919
原创 贝叶斯 算法 实例
#-*- coding: utf-8 -*- #添加中文注释from numpy import *#过滤网站的恶意留言#样本数据 def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not',
2016-01-13 20:02:14 6783
原创 贝叶斯 算法 理论
Bayes公式 先验概率和后验概率 贝叶斯文本分类示例 朴素贝叶斯分类决策 最小错误率决策 最小风险决策 最小风险贝叶斯决策—基本思想 最小风险贝叶斯决策—损失函数 最小风险贝叶斯决策—步骤 最小风险癌细胞实例
2016-01-13 19:58:07 626
原创 idea 使用快捷键
CtrlCtrl + F 在当前文件进行文本查找 (必备) Ctrl + R 在当前文件进行文本替换 (必备) Ctrl + Z 撤销 (必备) Ctrl + Y 删除光标所在行 或 删除选中的行 (必备) Ctrl + X 剪切光标所在行 或 剪切选择内容 Ctrl + C 复制光标所在行 或 复制选择内容 Ctrl + D 复制光标所在行 或
2016-01-11 18:58:23 549
转载 NumPy的详细教程
基础篇 NumPy的主要对象是同种元素的多维数组。这是一个所有的元素都是一种类型、通过一个正整数元组索引的元素表格(通常是元素是数字)。在NumPy中维度(dimensions)叫做轴(axes),轴的个数叫做秩(rank)。例如,在3D空间一个点的坐标[1, 2, 3]是一个秩为1的数组,因为它只有一个轴。那个轴长度为3.又例如,在以下例子中,数组的秩为2(它有两个维度).第一个维度长度为2,第
2016-01-11 18:39:24 475
原创 邻近 算法 实例
约会 40920 8.326976 0.953952 3 14488 7.153469 1.673904 2 26052 1.441871 0.805124 1 75136 13.147394 0.428964 1 38344 1.669788 0.134296 1 72993 10.14
2016-01-07 09:48:53 802
原创 邻近 算法 理论
K近邻模型由三个基本要素组成: 距离度量; k值的选择; 分类决策规则K近邻算法的核心在于找到实例点的邻居。 估算不同样本之间的相似性(SimilarityMeasurement)通常采用的方法就是计算样本间的“距离”(Distance),相似性度量方法有:欧氏距离、余弦夹角、曼哈顿距离、切比雪夫距离等。 欧氏距离 欧氏距离(EuclideanDistance)是最易于理解的一种距离计算
2016-01-05 19:31:32 1404
转载 Oracle的rollup、cube、grouping sets函数
Oracle的group by除了基本用法以外,还有3种扩展用法,分别是rollup、cube、grouping sets。rollup假设有一个表test,有A、B、C、D、E5列。 如果使用group by rollup(A,B,C),首先会对(A、B、C)进行GROUP BY,然后对(A、B)进行GROUP BY,然后是(A)进行GROUP BY,最后对全表进行GROUP BY操作。roll
2016-01-04 14:53:17 370
KafkaOffsetMonitor-assembly-0.2.0
2016-01-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人