自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小刀的专栏

路是一步一步走出来的。

  • 博客(53)
  • 收藏
  • 关注

原创 spark 多目录输出

/** * 多目录输出 */class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {//指定该条记录的输出文件 override def generateFileNameForKeyValue(key: Any, value: Any, name: String): Str

2016-09-23 14:34:05 3915

原创 kafka性能测试

1、环境Ubuntu 12.044核4G虚拟机100M网卡2、配置原生配置,单broker。使用kafka自带的zk服务。3、性能模拟线上日志大小,单条600b 逐条读写(50w记录):Write       1200条/sRead        1300条/s 批量读写(100w记录):Write        20000条/sRead

2015-11-19 10:43:51 821

转载 HMAC-SHA1各语言版本实现

转自:http://blog.csdn.net/jiang1013nan/article/details/17318133在各大开放平台大行其道的互联网开发潮流中,调用各平台的API接口过程中,无一例外都会用到计算签名值(sig值)。而在各种计算签名的方法中,经常被采用的就是HMAC-SHA1,现对HMAC-SHA1做一个简单的介绍:        HMAC,散列消息鉴别码,基

2015-09-28 16:44:15 3635

转载 hbase导入数据几种方式

转自:http://database.51cto.com/art/201407/445438.htmHBase实战(1):数据导入方式作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Clien

2015-09-07 17:53:47 1500

转载 zookeeper3.4.5自动清理日志

转自:http://blog.csdn.net/wangmuming/article/details/23665757从3.4.0开始,zookeeper提供了自动清理snapshot和事务日志的功能,通过配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这两个参数能够实现定时清理了。这两个参数都是在zoo.cfg

2015-08-31 09:34:45 534

原创 in query_vcvarsall raise ValueError(str(list(result.keys()))) ValueError: [u'path'] 解决

执行 pip install ****** 时,报异常 :File "D:\Program Files (x86)\python27\lib\distutils\msvc9compiler.py", line 299, in query_vcvarsall raise ValueError(str(list(result.keys()))) ValueError: [u'path']    

2015-08-17 13:02:10 4375

转载 使用Spark ALS实现协同过滤

转自:http://blog.javachen.com/2015/06/01/how-to-implement-collaborative-filtering-using-spark-als.html本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。更新:【2016.06.12】Spar

2015-08-12 10:22:09 6168 1

转载 map和hash_map性能测试

转自:http://blog.sina.com.cn/s/blog_5378b2830100c5a4.html  大家都知道map是使用树来做查找算法,而hash_map使用hash表来排列配对,是使用关键字来计算表位置。那使用起来他们的差别主要是什么呢?对于性能差别是什么,适合什么情况下应用呢?于是我对它们进行了一些测试,并记录了测试数据供大家分享。测试的内容主要是map和hash_

2015-08-10 20:11:27 541

转载 Hadoop文件放置策略及数据倾斜的balance方法

转自:http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/22/hadoop-block_hdfs.html?utm_source=tuicoolhttp://www.cnblogs.com/Richardzhu/p/3623323.htmlHadoop文件放置1:什么是HDFS?HDFS

2015-08-05 14:48:34 6070

原创 spark1.2 使用breeze 的 netlib.BLAS 异常

使用spark1.2 的 standalone 模式运行使用breeze的任务,报如下警告:15/07/28 02:49:32 WARN netlib.BLAS: Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS15/07/28 02:49:32 WARN netlib.BLAS: F

2015-07-29 20:06:58 6445 2

原创 breeze densematrix 基本操作

代码如下:val matrix1 = BDM((1.0, 2.0, 3.0, 0.0), (3.0, 4.0, 5.0, 0.0), (5.0, 6.0, 7.0, 0.0))val matrix2 = DenseMatrix.ones[Double](3,4)println(matrix1.activeSize)println(matrix1.cols)pri

2015-07-27 18:06:45 5363

转载 python 连接 MySQL 中文乱码

转自:http://www.jb51.net/article/56088.htm一般来说,在使用mysql最麻烦的问题在于乱码。查看mysql的编码:命令: 复制代码代码如下:show variables like 'character_set_%';可以看到如下结果:character_set_client为客户端编码方式;ch

2015-07-22 16:31:57 649

原创 navicat for mysql report 使用

navicat for mysql report  分为静态报表跟动态报表。其中静态报表手工输入数据,而动态报表基于MySQL数据库动态完成填充数据,后者在实际使用中更方便。使用 navicat for mysql report 生成动态图形报表步骤:1、新建report2、创建data基于SQL创建,完成后保存即可3、design reportedit chat

2015-07-21 11:07:33 1301

原创 数据可视化简单理解

数据可视化,既是把抽象的数据形象化。主要表现形式为,数字数据表格化、图形化。当前主要的可视化工具可大致分为两类:可视化展示,如传统的图形报表;可视化分析,如知识图谱、可视化数据挖掘。

2015-07-21 10:55:06 1312

原创 python 下载 JPG 图片

Python2 的 urllib 与 urllib2 下载图片后,显示无法正常打开。原因可能为,默认 post 方式下载,而图片应该为 get 方式下载。使用如下代码,问题解决。requests安装: pip install requestsimport requests# 下载图片def dowloadPic(imageUrl,filePath):

2015-07-20 12:08:12 4685

原创 梯度法(SGD)、拟牛顿法(LBFGS)与共轭梯度法(CG)

一、基本原理梯度法:由一阶泰勒级数展开式,f(x+dx) = f(x) + sum(i,df/dx(i)*dx(i)) + r(x,dx)。其中r(x,dx)为余项,当dx很小时,可忽略余项。推倒得迭代:x=x+dx=x-miu*dfx。优点:可收敛于一个极小值点。缺点:收敛速度慢,在梯度值小时尤为明显。学习率miu需要依据经验赋值。牛顿法:         由二阶泰勒级数

2015-07-14 18:15:26 10780

原创 scala 随机数函数截取 spark 数据集

scala代码:scala.math.abs(scala.util.Random.nextInt())%27scala.math.abs:绝对值scala.util.Random.nextInt:随机数应用,截取spark数据集:val data = sc.textFile("hdfs://localhost:9000/ModelData/*").f

2015-07-14 17:33:06 4590

转载 分类算法中的ROC与PR指标

基本概念True Positives,TP:预测为正样本,实际也为正样本的特征数False Positives,FP:预测为正样本,实际为负样本的特征数(错预测为正样本了,所以叫False)True Negatives,TN:预测为负样本,实际也为负样本的特征数False Negatives,FN:预测为负样本,实际为正样本的特征数(错预测为负样本了,所以叫False)接着往下做做

2015-07-13 12:30:54 1557

原创 hive 查询结果导入 local 与 HDFS

导入本地:insert overwrite local directory '/mnt/spark-tmp/apps.txt' row format delimited fields terminated by ',' select * from aaa  limit 10000;导入HDFS:insert overwrite directory '/mnt/spa

2015-07-08 17:36:52 747

原创 scala 调用 Java 的 fastjson 处理 json

实例:package com.lmimport com.alibaba.fastjson.JSONobject JsonDemo {  def main(args: Array[String]) {    val text = "{\"name\":\"name1\", \"age\":55}"    val json = JSON.parseObject(text

2015-07-08 13:56:56 10492

原创 java 使用 fastjson 处理 json

fastjson 为阿里巴巴开发的开源json处理库。阿里巴巴的东西,效率没的说。实例:package com.lm;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;public class FastJsonDemo {public static void mai

2015-07-08 13:53:42 1140

原创 scala 在 spark 中操作 hdfs

问题场景:在编写spark程序时,输出目录存在会造成spark任务失败。处理方法有2种,第一利用脚本方式,在主任务之上加层处理,第二,在spark任务中先处理掉目录。spark支持的可编程语言有Scala、Python、Java。其中Python无需编译打包,十分方便,但是貌似没有处理hdfs系统的Python接口,而Python的执行脚本语言是异步于主任务的,换言之,主任务与脚本任务的执行完成顺

2015-07-08 10:00:47 7554

转载 HBase使用场景

转自:http://blog.sina.com.cn/s/blog_ae33b83901016azb.htmlHBase仿效了Google的BigTable,让我们开始探索典型的BigTable问题:存储互联网。 1.2.1 典型互联网搜索问题:BigTable发明的原因搜索是一个定位你所关心的信息的行为:例如,搜索一本书的页码,其中含有你想读的主题,或

2015-07-03 17:09:48 848

原创 查询方式创建hive新表,并制定相应分隔符

命令:CREATE TABLE tablename_temp  # 创建表row format delimited fields terminated by ','  #指定分隔符号AS select filed1,filed2 from tablename order by filed1 desc limit 20; #查询方式获取数据源

2015-07-02 12:35:08 1185

原创 shell 操作 MySQL

命令:mysql -uroot -p123456 use test;select * from tablename limit 10;EOF其中:-uroot,root为用户名-p123456,123456为密码注意与mysql命令行登陆命令区别:mysql -u root -p test 123456其中:root

2015-07-02 12:29:21 441

原创 sqoop 导出 hive分区表 数据到 mysql

./sqoop export --connect jdbc:mysql://localhost:3306/test --username root --password 123456 --table pptr --export-dir /user/hive/warehouse/moji.db/ttpr/part_date=2015-06-16/part_type=1 --input-fields-

2015-07-02 12:23:15 8816 3

原创 sqoop 安装配置(Hadoop2.4 + hive0.13)

1、下载 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar2、配置环境变量export SQOOP_HOME=/home/hadoop/sqoop-1.4.6 export PATH=$PATH:$SQOOP_HOME/bin其他需配置的环境变量,自查。3、配置MySQL驱动jar包将 mysql-connector-java-5.1.30

2015-07-02 12:05:25 707

原创 CNN卷积神经网络

CNN卷积神经网络1、初始化卷积网络结构cnn.layers = {%input layerstruct('type', 'i') %卷积层,卷积6个特征输出,卷积核尺寸为,卷积核为{1,6}。struct('type', 'c', 'outputmaps', 6, 'kernelsize', 5) %子抽样层,子抽样比例,此为1/2。struct('t

2015-06-29 17:03:42 1404

原创 DBN深信度网络

DBN深信度网络1、以RBM(限制玻尔兹曼机)训练第1~n-1层的网络权重。2、在第n层以线性感知机,随机初始化权重。并与之前隐层一起,转变为已训练起始参数的BP神经网络。3、运用BP算法调整整个网络权重。

2015-06-29 17:02:02 2998

原创 SAE稀疏编码机

SAE稀疏编码机1、(非监督学习)以input-input方式重复利用BP算法获得稀疏编码机的权重w{i}。2、将训练的各层稀疏编码机权重,赋给新的BP算法,作为算法近似最优权重。并随机初始化第n层的感知器权重。3、(监督学习)运用BP算法,以input-target方式重复优化新BP算法的权重w。

2015-06-29 16:59:16 1033

原创 NN(BP)算法

1、初始化网络结构及w参数2、nnff前向传播计算a:训练集初始化a{1};循环计算a{i}=f(a{i-1},w,…)。3、nnbp误差反向传播计算d计算e=a{n}-y,初始化d{n}=e;循环计算d{i}=f(d{i+1},a{i},…)。循环计算dW{i}4、更新wdW=dW*学习率+ 随机动量w =w – dW

2015-06-29 16:56:27 2775

原创 matlab ndims 函数 与 expand 函数

ndims 函数:返回矩阵的维数。expand 函数:A = [1 2; 3 4]; % 2x2SZ = [6 5];B = expand(A,SZ)  % Creates a 12x10 array.B =     1     1     1     1     1     2     2     2     2     2     1    

2015-06-29 12:19:31 14800 4

原创 MATLAB卷积运算(conv、conv2、convn)

conv(向量卷积运算)所谓两个向量卷积,说白了就是多项式乘法。比如:p=[1 2 3],q=[1 1]是两个向量,p和q的卷积如下:把p的元素作为一个多项式的系数,多项式按升幂(或降幂)排列,比如就按升幂吧,写出对应的多项式:1+2x+3x^2;同样的,把q的元素也作为多项式的系数按升幂排列,写出对应的多项式:1+x。卷积就是“两个多项式相乘取系数”。(1+2x+3x

2015-06-26 17:04:33 46129 1

原创 数据预处理-归一化与z-score标准化

归一化:归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。线性函数转换:y=(x-MinValue)/(MaxValue-MinValue)说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。对数函数转换:y=log10(x)说

2015-06-25 11:32:30 73586

转载 matlab函数 bsxfun浅谈

转自:http://blog.sina.com.cn/s/blog_9e67285801010ttn.html  网上关于bsxfun的东西不多,今天需要看到一个,由于原博文插入的图片显示不出来,于是笔者大发善心进行了contrl+V 以及alt+ctrl+A的操作,供大家交流学习。   bsxfun是一个matlab自版本R2007a来就提供的一个函数,作用是

2015-06-23 11:05:39 1100

转载 集成学习方法

转自:http://mp.weixin.qq.com/s?__biz=MjM5MTQ4NzgwNA==&mid=207350122&idx=4&sn=3fc116b63661fec04b0e30e5a95edbf4#rd一、集成学习方法的思想前面介绍了一系列的算法,每个算法有不同的适用范围,例如有处理线性可分问题的,有处理线性不可分问题。在现实世界的生活中,

2015-06-19 13:48:04 2825

原创 spark 目录通配符

在以spark分析栈进行数据分析计算时,经常需要在多目录中选择一定数目的目录或文件。此时就需要用到通配符,使程序更加简洁,代码更加优美。一般目录选择情况,及其方法: n选1 :目录或文件夹唯一,直接写全目录。如:hdfs://192.168.0.1:9000/spark/app/xxxx 。 n选m : 使用通配符 [] 。如:hdfs://192.168.0.1:9000/s

2015-06-19 11:04:53 3895

转载 hive 创建/删除/截断 表(翻译自Hive wiki)

转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/04/2844393.html这里罗列常用操作,更多参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create%2FDrop%2FTruncateTab

2015-06-18 12:59:06 512

转载 hive数据操作

转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/04/2844673.htmlhive有两种数据修改方式从文件加载到hive表加载数据到表时,hive不会做任何转换。加载操作是纯粹的复制/移动操作,移动数据文件到相应的hive表。语法LOAD DATA [LOCAL] INPATH 'fil

2015-06-18 12:56:49 580

转载 linux shell 字符串操作(长度,查找,替换)详解

转自: http://www.cnblogs.com/chengmo/archive/2010/10/02/1841355.html在做shell批处理程序时候,经常会涉及到字符串相关操作。有很多命令语句,如:awk,sed都可以做字符串各种操作。 其实shell内置一系列操作符号,可以达到类似效果,大家知道,使用内部操作符会省略启动外部程序等时间,因此速度会非常的快。

2015-06-15 16:40:07 530

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除