刀砍磁感线-CSDN博客

原创 spark 多目录输出

/** * 多目录输出 */class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {//指定该条记录的输出文件 override def generateFileNameForKeyValue(key: Any, value: Any, name: String): Str

2016-09-23 14:34:05 3981

原创 kafka性能测试

1、环境Ubuntu 12.044核4G虚拟机100M网卡2、配置原生配置，单broker。使用kafka自带的zk服务。3、性能模拟线上日志大小，单条600b 逐条读写（50w记录）:Write 1200条/sRead 1300条/s 批量读写（100w记录）：Write 20000条/sRead

2015-11-19 10:43:51 884

转载 HMAC-SHA1各语言版本实现

转自：http://blog.csdn.net/jiang1013nan/article/details/17318133在各大开放平台大行其道的互联网开发潮流中，调用各平台的API接口过程中，无一例外都会用到计算签名值(sig值)。而在各种计算签名的方法中，经常被采用的就是HMAC-SHA1，现对HMAC-SHA1做一个简单的介绍： HMAC，散列消息鉴别码，基

2015-09-28 16:44:15 3726

转载 hbase导入数据几种方式

转自：http://database.51cto.com/art/201407/445438.htmHBase实战(1)：数据导入方式作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Clien

2015-09-07 17:53:47 1570

转载 zookeeper3.4.5自动清理日志

转自：http://blog.csdn.net/wangmuming/article/details/23665757从3.4.0开始，zookeeper提供了自动清理snapshot和事务日志的功能，通过配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这两个参数能够实现定时清理了。这两个参数都是在zoo.cfg

2015-08-31 09:34:45 576

原创 in query_vcvarsall raise ValueError(str(list(result.keys()))) ValueError: [u'path'] 解决

执行 pip install ****** 时，报异常：File "D:\Program Files (x86)\python27\lib\distutils\msvc9compiler.py", line 299, in query_vcvarsall raise ValueError(str(list(result.keys()))) ValueError: [u'path']

2015-08-17 13:02:10 4469

转载使用Spark ALS实现协同过滤

转自：http://blog.javachen.com/2015/06/01/how-to-implement-collaborative-filtering-using-spark-als.html本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结，希望对大家熟悉Spark ALS算法有所帮助。更新：【2016.06.12】Spar

2015-08-12 10:22:09 6266 1

转载 map和hash_map性能测试

转自：http://blog.sina.com.cn/s/blog_5378b2830100c5a4.html 大家都知道map是使用树来做查找算法，而hash_map使用hash表来排列配对，是使用关键字来计算表位置。那使用起来他们的差别主要是什么呢？对于性能差别是什么，适合什么情况下应用呢？于是我对它们进行了一些测试，并记录了测试数据供大家分享。测试的内容主要是map和hash_

2015-08-10 20:11:27 594

转载 Hadoop文件放置策略及数据倾斜的balance方法

转自：http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/22/hadoop-block_hdfs.html?utm_source=tuicoolhttp://www.cnblogs.com/Richardzhu/p/3623323.htmlHadoop文件放置1：什么是HDFS?HDFS

2015-08-05 14:48:34 6127

原创 spark1.2 使用breeze 的 netlib.BLAS 异常

使用spark1.2 的 standalone 模式运行使用breeze的任务，报如下警告：15/07/28 02:49:32 WARN netlib.BLAS: Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS15/07/28 02:49:32 WARN netlib.BLAS: F

2015-07-29 20:06:58 6630 2

原创 breeze densematrix 基本操作

代码如下：val matrix1 = BDM((1.0, 2.0, 3.0, 0.0), (3.0, 4.0, 5.0, 0.0), (5.0, 6.0, 7.0, 0.0))val matrix2 = DenseMatrix.ones[Double](3,4)println(matrix1.activeSize)println(matrix1.cols)pri

2015-07-27 18:06:45 5439

转载 python 连接 MySQL 中文乱码

转自：http://www.jb51.net/article/56088.htm一般来说，在使用mysql最麻烦的问题在于乱码。查看mysql的编码：命令：复制代码代码如下:show variables like 'character_set_%';可以看到如下结果：character_set_client为客户端编码方式；ch

2015-07-22 16:31:57 706

原创 navicat for mysql report 使用

navicat for mysql report 分为静态报表跟动态报表。其中静态报表手工输入数据，而动态报表基于MySQL数据库动态完成填充数据，后者在实际使用中更方便。使用 navicat for mysql report 生成动态图形报表步骤：1、新建report2、创建data基于SQL创建，完成后保存即可3、design reportedit chat

2015-07-21 11:07:33 1360

原创数据可视化简单理解

数据可视化，既是把抽象的数据形象化。主要表现形式为，数字数据表格化、图形化。当前主要的可视化工具可大致分为两类：可视化展示，如传统的图形报表；可视化分析，如知识图谱、可视化数据挖掘。

2015-07-21 10:55:06 1389

原创 python 下载 JPG 图片

Python2 的 urllib 与 urllib2 下载图片后，显示无法正常打开。原因可能为，默认 post 方式下载，而图片应该为 get 方式下载。使用如下代码，问题解决。requests安装: pip install requestsimport requests# 下载图片def dowloadPic(imageUrl,filePath):

2015-07-20 12:08:12 4738

原创梯度法（SGD）、拟牛顿法（LBFGS）与共轭梯度法（CG）

一、基本原理梯度法：由一阶泰勒级数展开式，f(x+dx) = f(x) + sum(i,df/dx(i)*dx(i)) + r(x,dx)。其中r(x,dx)为余项，当dx很小时，可忽略余项。推倒得迭代：x=x+dx=x-miu*dfx。优点：可收敛于一个极小值点。缺点：收敛速度慢，在梯度值小时尤为明显。学习率miu需要依据经验赋值。牛顿法：由二阶泰勒级数

2015-07-14 18:15:26 11152

原创 scala 随机数函数截取 spark 数据集

scala代码：scala.math.abs(scala.util.Random.nextInt())%27scala.math.abs：绝对值scala.util.Random.nextInt：随机数应用，截取spark数据集：val data = sc.textFile("hdfs://localhost:9000/ModelData/*").f

2015-07-14 17:33:06 4657

转载分类算法中的ROC与PR指标

基本概念True Positives,TP：预测为正样本，实际也为正样本的特征数False Positives,FP：预测为正样本，实际为负样本的特征数（错预测为正样本了，所以叫False）True Negatives,TN：预测为负样本，实际也为负样本的特征数False Negatives,FN：预测为负样本，实际为正样本的特征数（错预测为负样本了，所以叫False）接着往下做做

2015-07-13 12:30:54 1659

原创 hive 查询结果导入 local 与 HDFS

导入本地：insert overwrite local directory '/mnt/spark-tmp/apps.txt' row format delimited fields terminated by ',' select * from aaa limit 10000;导入HDFS：insert overwrite directory '/mnt/spa

2015-07-08 17:36:52 806

原创 scala 调用 Java 的 fastjson 处理 json

实例：package com.lmimport com.alibaba.fastjson.JSONobject JsonDemo { def main(args: Array[String]) { val text = "{\"name\":\"name1\", \"age\":55}" val json = JSON.parseObject(text

2015-07-08 13:56:56 10576

原创 java 使用 fastjson 处理 json

fastjson 为阿里巴巴开发的开源json处理库。阿里巴巴的东西，效率没的说。实例：package com.lm;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;public class FastJsonDemo {public static void mai

2015-07-08 13:53:42 1208

问题场景：在编写spark程序时，输出目录存在会造成spark任务失败。处理方法有2种，第一利用脚本方式，在主任务之上加层处理，第二，在spark任务中先处理掉目录。spark支持的可编程语言有Scala、Python、Java。其中Python无需编译打包，十分方便，但是貌似没有处理hdfs系统的Python接口，而Python的执行脚本语言是异步于主任务的，换言之，主任务与脚本任务的执行完成顺

2015-07-08 10:00:47 7636

转载 HBase使用场景

转自：http://blog.sina.com.cn/s/blog_ae33b83901016azb.htmlHBase仿效了Google的BigTable，让我们开始探索典型的BigTable问题：存储互联网。 1.2.1 典型互联网搜索问题：BigTable发明的原因搜索是一个定位你所关心的信息的行为：例如，搜索一本书的页码，其中含有你想读的主题，或

2015-07-03 17:09:48 916

原创查询方式创建hive新表，并制定相应分隔符

命令：CREATE TABLE tablename_temp # 创建表row format delimited fields terminated by ',' #指定分隔符号AS select filed1,filed2 from tablename order by filed1 desc limit 20; #查询方式获取数据源

2015-07-02 12:35:08 1239

原创 shell 操作 MySQL

命令：mysql -uroot -p123456 use test;select * from tablename limit 10;EOF其中：-uroot，root为用户名-p123456，123456为密码注意与mysql命令行登陆命令区别：mysql -u root -p test 123456其中：root

2015-07-02 12:29:21 484

原创 sqoop 导出 hive分区表数据到 mysql

./sqoop export --connect jdbc:mysql://localhost:3306/test --username root --password 123456 --table pptr --export-dir /user/hive/warehouse/moji.db/ttpr/part_date=2015-06-16/part_type=1 --input-fields-

2015-07-02 12:23:15 8893 3

原创 sqoop 安装配置（Hadoop2.4 + hive0.13）

1、下载 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar2、配置环境变量export SQOOP_HOME=/home/hadoop/sqoop-1.4.6 export PATH=$PATH:$SQOOP_HOME/bin其他需配置的环境变量，自查。3、配置MySQL驱动jar包将 mysql-connector-java-5.1.30

2015-07-02 12:05:25 756

原创 CNN卷积神经网络

CNN卷积神经网络1、初始化卷积网络结构cnn.layers = {%input layerstruct('type', 'i') %卷积层，卷积6个特征输出，卷积核尺寸为，卷积核为{1,6}。struct('type', 'c', 'outputmaps', 6, 'kernelsize', 5) %子抽样层，子抽样比例，此为1/2。struct('t

2015-06-29 17:03:42 1451

原创 DBN深信度网络

DBN深信度网络1、以RBM（限制玻尔兹曼机）训练第1~n-1层的网络权重。2、在第n层以线性感知机，随机初始化权重。并与之前隐层一起，转变为已训练起始参数的BP神经网络。3、运用BP算法调整整个网络权重。

2015-06-29 17:02:02 3080

原创 SAE稀疏编码机

SAE稀疏编码机1、（非监督学习）以input-input方式重复利用BP算法获得稀疏编码机的权重w{i}。2、将训练的各层稀疏编码机权重，赋给新的BP算法，作为算法近似最优权重。并随机初始化第n层的感知器权重。3、（监督学习）运用BP算法，以input-target方式重复优化新BP算法的权重w。

2015-06-29 16:59:16 1099

原创 NN（BP）算法

1、初始化网络结构及w参数2、nnff前向传播计算a:训练集初始化a{1};循环计算a{i}=f(a{i-1},w,…)。3、nnbp误差反向传播计算d计算e=a{n}-y，初始化d{n}=e;循环计算d{i}=f(d{i+1},a{i},…)。循环计算dW{i}4、更新wdW=dW*学习率+ 随机动量w =w – dW

2015-06-29 16:56:27 2909

原创 matlab ndims 函数与 expand 函数

ndims 函数：返回矩阵的维数。expand 函数：A = [1 2; 3 4]; % 2x2SZ = [6 5];B = expand(A,SZ) % Creates a 12x10 array.B = 1 1 1 1 1 2 2 2 2 2 1

2015-06-29 12:19:31 14982 2

原创 MATLAB卷积运算（conv、conv2、convn）

conv（向量卷积运算）所谓两个向量卷积，说白了就是多项式乘法。比如:p=[1 2 3],q=[1 1]是两个向量，p和q的卷积如下：把p的元素作为一个多项式的系数，多项式按升幂（或降幂）排列，比如就按升幂吧，写出对应的多项式：1+2x+3x^2;同样的，把q的元素也作为多项式的系数按升幂排列，写出对应的多项式：1+x。卷积就是“两个多项式相乘取系数”。（1+2x+3x

2015-06-26 17:04:33 46464 1

原创数据预处理-归一化与z-score标准化

归一化：归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为标量。在多种计算中都经常用到这种方法。线性函数转换：y=(x-MinValue)/(MaxValue-MinValue)说明：x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值。对数函数转换：y=log10(x)说

2015-06-25 11:32:30 74105

转载 matlab函数 bsxfun浅谈

转自：http://blog.sina.com.cn/s/blog_9e67285801010ttn.html 网上关于bsxfun的东西不多，今天需要看到一个，由于原博文插入的图片显示不出来，于是笔者大发善心进行了contrl+V 以及alt+ctrl+A的操作，供大家交流学习。 bsxfun是一个matlab自版本R2007a来就提供的一个函数，作用是

2015-06-23 11:05:39 1162

转载集成学习方法

转自：http://mp.weixin.qq.com/s?__biz=MjM5MTQ4NzgwNA==&mid=207350122&idx=4&sn=3fc116b63661fec04b0e30e5a95edbf4#rd一、集成学习方法的思想前面介绍了一系列的算法，每个算法有不同的适用范围，例如有处理线性可分问题的，有处理线性不可分问题。在现实世界的生活中，

2015-06-19 13:48:04 2923

原创 spark 目录通配符

在以spark分析栈进行数据分析计算时，经常需要在多目录中选择一定数目的目录或文件。此时就需要用到通配符，使程序更加简洁，代码更加优美。一般目录选择情况，及其方法： n选1 ：目录或文件夹唯一，直接写全目录。如：hdfs://192.168.0.1:9000/spark/app/xxxx 。 n选m ：使用通配符 [] 。如：hdfs://192.168.0.1:9000/s

2015-06-19 11:04:53 3985

转载 hive 创建/删除/截断表(翻译自Hive wiki)

转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/04/2844393.html这里罗列常用操作，更多参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create%2FDrop%2FTruncateTab

2015-06-18 12:59:06 567

转载 hive数据操作

转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/04/2844673.htmlhive有两种数据修改方式从文件加载到hive表加载数据到表时，hive不会做任何转换。加载操作是纯粹的复制/移动操作，移动数据文件到相应的hive表。语法LOAD DATA [LOCAL] INPATH 'fil

2015-06-18 12:56:49 632

转载 linux shell 字符串操作（长度，查找，替换）详解

转自： http://www.cnblogs.com/chengmo/archive/2010/10/02/1841355.html在做shell批处理程序时候，经常会涉及到字符串相关操作。有很多命令语句，如：awk,sed都可以做字符串各种操作。其实shell内置一系列操作符号，可以达到类似效果，大家知道，使用内部操作符会省略启动外部程序等时间，因此速度会非常的快。

2015-06-15 16:40:07 572

空空如也

空空如也