并行计算与分布式计算
leexurui
这个作者很懒,什么都没留下…
展开
-
从几个简单例子了解CUDA内核的几个…
首先来看向量相加下面是GPU 上向量相加的并行方法1、GPU 上短长度的向量相加再来看内积的kernel__global__ void dot( int *a, int *b, int *c ) {__shared__ int temp[THREADS_PER_BLOCK]; //每一个block内共享内存index = threadIdx.x + blockIdx.原创 2016-08-29 12:50:06 · 1138 阅读 · 0 评论 -
Spark的最短路径详解
import org.apache.spark.graphx._ import org.apache.spark.SparkContext import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.rdd.RDD// I原创 2016-08-29 12:51:35 · 3275 阅读 · 0 评论 -
Spark mlib FPGrowth&nb…
MLlib’s FP-growth implementation takes the following(hyper-)parameters:minSupport: the minimum support for an itemset to beidentified as frequent. For example, if an item appears 3 out of 5trans原创 2016-08-29 12:51:33 · 513 阅读 · 0 评论 -
Spark SQL重点
Spark SQL允许Spark执行用SQL,HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。 1、使用反射来推断包含特定对象类型的RDD的模式(schema)。在你写spark程序的同时,当你已经知道了模式,这种基于反射的方法可以使代码更简洁并且程序工作得更好。例如sc.textFile("examples/src/main/原创 2016-08-29 12:51:30 · 412 阅读 · 0 评论 -
Spark Stream 教程
import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{Seconds,StreamingContext}import org.apache.log4j.{Level, Logger}import java.util.co原创 2016-08-29 12:51:27 · 1148 阅读 · 0 评论 -
Spark map 处理表格数据
map 处理表格数据" TITLE="Spark map 处理表格数据" />总结:- Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”: 操作1:同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象 操作2:最后将所有对象合并为一个对象使用ma原创 2016-08-29 12:51:25 · 513 阅读 · 0 评论 -
关于Hadoop的GenericOptionsParser…
由于集群为hadoop配置了执行队列,所以如果我们程序写成下面这样的话: Configuration conf = newConfiguration(); String[] otherArgs = newGenericOptionsParser(conf, args).getRemainingArgs(); ........... File原创 2016-08-29 12:51:18 · 5802 阅读 · 0 评论 -
scala 重点语法总结
Scala 有两种变量, val 和var 其中val不可变,var可变val msg: String="Hello yet again,world!"或者类型推断val msg = "Hello,world!"重点语法总结" TITLE="scala 重点语法总结" />如果函数仅由一个句子组成,你可以可选地不写大括号。def max2(x: Int, y: In原创 2016-08-29 12:51:15 · 4206 阅读 · 0 评论 -
Pagerank 的mapreduce
什么是pagerank,不说了,机器学习10大算法之一,网上搜一堆。谷歌发明的网页搜索方法。简单说就是原来N个网页,有一个初始概率向量,然后有一个转移矩阵,跟原始概率向量相乘(一般还要考虑陷阱问题,所以一般每一步是个乘加)(其实就是一个马尔可夫过程),得到一个新的概率向量。然后反复乘加。由于网页实在太多,所以可能计算量相当大。可以说谷歌发明分布式mapreduce(hadoop)最初就是用来解决p原创 2016-08-29 12:50:38 · 445 阅读 · 0 评论 -
Kmeans 的MapReduce实现原理
1、由InputDriver对原始数据集的一个预处理,输入目录是:testdata,输出目录是:output/data2、由CanopyDriver发起的对data的初始划分,输入目录是:output/data,输出目录是:output/clusters-0。这里我们假设样本被划分为了500份小样本文件,分散在cluster中。3、由KmeansDriver发起的构建Cluster的第一原创 2016-08-29 12:50:36 · 772 阅读 · 0 评论 -
CUDA 共享内存的bank co…
上面两个概念不要搞混了,两个不同的概念大部分转自http://www.cnblogs.com/waytofall/archive/2013/02/19/2916996.htmlhttp://www.cnblogs.com/dwdxdy/p/3215187.html个人感觉shared memory可能是CUDA优化编程中最经常考虑的东西了。在编程过程中,有静态的shared原创 2016-08-29 12:50:29 · 548 阅读 · 0 评论 -
从SQL到HiveQL
从SQL到HiveQL应转变的习惯HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准,如HiveQL不支持更新操作(行级别), 也不支持事务, 它的索引,子查询和join操作也很局限,这是因其底层依赖于Hadoop云平台这一特性决定的,但其有些特点是SQL所无法企及的。例如多表查询、和集成MapReduce脚本等,也支持creat原创 2016-08-29 12:50:19 · 679 阅读 · 0 评论 -
一些mapreduce程序分析
wordcount 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。我们自然而然会想到将同一个数据的所有记录都交给一台reduce机器,无论这个数据出现多少次,只要在最终结果中输出一次就可以了。具体就是reduce的输入应该以数据作为key,而对value-list则没有要求。当reduce接收到一个时就直接将key复制到输出的key中,并将valu原创 2016-08-29 12:50:14 · 405 阅读 · 0 评论 -
基于CUDA的GPU优化建议
原文地址:基于CUDA的GPU优化建议作者:hecol GPU硬件特性n 存储层次u Global memory:l 大小一般为几GBl chip-off的DRAM介质存储器l 访问速度慢(是shared memory的上百倍)l 对于是否对齐和连续访问敏感(由DRAM的性质决定)l 可以被所有的线程访问u Shared memory:l转载 2016-08-29 12:50:11 · 677 阅读 · 0 评论 -
WINDOWS 下编译CUDA的好方法
首先要确定VS和NVDIA的套件都装好了。在VS里面设置各种烦。首先把main.cpp 和maxwell.cu 文件放到一个文件夹下。也不需要建立啥工程。然后用下面的工具下编译CUDA的好方法" TITLE="WINDOWS 下编译CUDA的好方法" />如果是两个文件,一个是test.cu,另一个是main.cpp则cpp里面无需include "test.cu".先原创 2016-08-29 12:50:09 · 1491 阅读 · 0 评论 -
scikitlearn/theano多分类问题详解
入门先看下面两个网址二分类:http://python.jobbole.com/82208/多分类:http://blog.csdn.net/han_xiaoyang/article/details/50521072下面说说改进及注意点:上述博客的数据例子都是根据自己的意思随机生成的。这边用iris数据进行扩展由于iris数据是像下面这样的:5.1,3.5,1.4,0.2,原创 2016-08-29 12:51:46 · 1431 阅读 · 1 评论