- 博客(19)
- 资源 (7)
- 收藏
- 关注
原创 WIN10 mscomm32注册,亲测可用
WIN10 mscomm32注册,亲测可用下载控件注册控件下载控件链接:百度云分享提取码:e0i7注册控件Copy MSCOMM32.OCX to C:\WINDOWS\SysWOW64(If you using 32bit Windows to C:\WINDOWS\SysWOW32)Run CMD(as Administrator)regsvr32 /u C:\WINDOWS\SysWOW64\MSCOMM32.OCXregsvr32 /i C:\WINDOWS\SysWOW64\MSC
2021-04-09 00:17:38 2720
原创 spark rdd存储开销分析
背景很多使用spark的朋友很想知道rdd里的元素是怎么存储的,它们占用多少存储空间?本次我们将以实验的方式进行测试,展示rdd存储开销性能。 关于rdd的元素怎么存储,spark里面实现了好几种不同类型的rdd,如最常见的MapPartitionsRDD,它处理map,filter,mapPartition等不引起shuffle的算子;再如ShuffledRDD它由shuffle操作生成的;像G
2016-04-03 16:56:25 3747
原创 rdd算子中能使用rdd的引用吗?
rdd算子中调用的客户函数坚决不能出现任何形式的rdd引用,否则会报很严重的错误: java.lang.ClassCastException: org.apache.spark.MapOutputTrackerWorker cannot be cast to org.apache.spark.MapOutputTrackerMaster这是因为客户函数将以闭包的形式发送至各个worker。若客户
2016-03-21 11:38:50 3532
转载 读完这100篇论文 就能成大数据高手
今天在网上闲逛,无意间发现了这一篇好文,原文作者是PayPal高级工程总监Anil Madan,文章对当前大数据领域用到的一些技术、框架等都做了一遍梳理。本文由CSDN翻译。通过阅读本文,可以对当前大数据领域有一个很好的认识,如果需要深入了解某项技术,可以阅读文章中所给的文章或论文的相关链接,都是不可多得的好资源。开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据
2016-03-14 15:03:24 4397 1
转载 深入浅出之Spark任务调度
概述Spark Application在遇到action算子时,SparkContext会生成Job,并将构成DAG图将给DAG Scheduler解析成Stage。Stage有两种: ShuffleMapStage 这种Stage是以Shuffle为输出边界 其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出 其输出可以是另一个Stage的开始 Shuf
2016-03-11 11:19:02 1440
原创 Spark MLlib LDA 基于GraphX实现原理及源码分析
LDA背景LDA(隐含狄利克雷分布)是一个主题聚类模型,是当前主题聚类领域最火的、最有力的模型之一,它能通过多轮迭代的方式把特征向量集合按主题分类。目前,广泛运用在文本主题聚类中。 LDA的开源实现有很多。目前广泛使用的、能够多机器并行处理大规模语料库的有实现有微软的LightLDA,谷歌plda、plda+,sparkLDA等等。下面介绍这3种LDA实现的特点: LightLDA的实现依赖于微
2016-02-25 22:20:01 7285 5
原创 Spark GraphX原理介绍
背景现实应用中,数据内部可能存在较高的关联度,如图模型应用。在对这样的数据进行处理时,并行计算框架就会面临较大的挑战,会引入大量的数据连接(join)和聚合(aggregation)操作,带来大量的计算和数据迁移,严重消耗集群资源,因此对此类算法的优化就显得极为重要。 互联网上网页权值计算的PageRank算法是一个典型的图模型问题,它依据网页之间的链接指向关系来判断网页的重要性,指向一个网页的链
2016-02-25 20:29:37 14389 3
原创 google PLDA + 实现原理及源码分析
LDA背景LDA(隐含狄利克雷分布)是一个主题聚类模型,它能通过学习的方法把一组特征向量按主题分类,广泛运用在文本主题聚类中。 LDA的开源实现有很多,目前广泛使用的、能够多机器分布式并行的实现有微软的LightLDA,谷歌plda、plda+,spark MLlib LDA等等 LightLDA的实现依赖于它们自己实现的multiverso参数服务器,底层使用mpi或zeromq进行消息发送
2016-01-20 16:10:33 12261 4
原创 java/scala下的最好用的数据绘图工具breeze-viz
背景介绍一些多轮迭代的程序,像机器学习程序等等,它会在运行时会打出很多状态信息,我们通过分析打印出来的log,判断程序的性能指标。然而,由于log数据太多,信息太大,靠眼睛看往往很难掌握系统的状态变化情况,如每轮迭代的输出是如何随迭代次数变化的,各轮迭代的时间变化等等。 要是能把这些状态信息打印出来,用图形显示,这会大大的减少痛苦!!breeze-viz就是用来干这件事的。 您可能会问,为什么不
2016-01-18 17:13:16 10551
原创 intellij idea直接编译spark源码及问题解决
spark源码最容易的编译方式莫过于使用intel idea将源码文件夹直接当做工程打开。下载完所需的依赖包好,build -> Make Project即可!!!
2016-01-16 22:46:56 11923 1
原创 sbt如何建立intellij ieda工程
intellij安装scala plugin在file -> setting -> plugin里面可以安装安装sbt尽管scala plugin里面包含了sbt工具,我们还是要安装一个系统全局可以的sbt工具 安装方法详见:http://blog.csdn.net/tanglizhe1105/article/details/50528801安装sbt plugin: gen-idea该plugi
2016-01-16 17:02:03 4967
转载 IntelliJ IDEA 15激活
最近发布的IntelliJ IDEA 15带来了很多的新特性,想必大家都非常想使用这个版本。但是遗憾的是,该版本的注册方式和之前版本不一样,只能通过联网激活。本文将提供的方法可以完美地破解idea 15的联网注册问题。本博客提供了两种用于激活IntelliJ IDEA 15的方法: 第一种需要下载相关的程序对Ideal加入相关的补丁,然后输入本博客生成的验证码即可破解; 第二种只需要输入本博客
2016-01-11 16:20:41 1172
原创 java date最常用的时间格式化
// 声明一个日期类型的变量Date time = new Date();// 声明日期格式化类变量DateFormat df = new SimpleDateFormat(“yyyy-MM-dd HH:mm:ss”);// 日期格式转化为字符串格式String time_str = df.format(time.getTime());// 字符串格式转化为日期格式Date new_t
2016-01-07 20:50:26 1035
原创 java/scala优先队列(PriorityQueue)元素改变后如何实现有序
java PriorityQueue能够对加入的元素按元素(必须是可比较的Comparable)大小排序,从而出队时总是“最小”元素优先出对。然而,现实应用中存在队列从元素发生改变的情况,PriorityQueue其实并不能时刻保证元素是有序。PriorityQueue在add addAll后会进行元素重排序,其余操作不会触发元素重排序。class AB{ AB(int a int
2016-01-07 20:42:39 6137 2
原创 linux软件源码安装管理
接触linux往往觉得linux得软件安装后非常混乱,都不知道他安装在哪里,自己也曾非常彷徨,现在我把自己的经验写出来,为大家提供借鉴。linux c/c++语言开源软件常使用Makefile管理,它需要configure、make、make install 3步曲来安装软件。对xxx.tar.gz源码包解压后便可以在文件夹里进行这3步曲。./configure --prefix=/path-to-
2016-01-07 17:07:32 507
原创 ubuntu定时任务管理crontab
crontab是linux下的定时任务管理工具,系统自带。 crontab为每个用户设定了配置文件,root用户的配置文件在/etc/crontab里面,普通用户的配置文件我们可以在配置文件里/var/…。我们可以直接修改配置文件来添加添加任务,但往往不推荐这么做。因为crontab提供了更安全的方式。下面命令可以完成任务的管理: crontab -e #编辑任务 crontab -r #移
2015-11-23 22:27:38 1452
原创 Spark RDD算子源码解读
结合spark1.5.0的RDD源码API及自己一年以来的开发经验,介绍Spark RDD算子的功能、原理及调用方式。
2015-11-02 09:34:52 3449 3
原创 Spark GraphX的边构造过程详解——从 RDD[Edge[ED]] 到 EdgeRDD[ED, VD]
本文介绍Spark GraphX内部对边存储的机理,详解边分区内部的索引构建过程。在最初,边是这样的 RDD[(srcId, dstId, attr)],它是(srcId, dstId, attr)这个三元组的集合。这种结构并不能提供有效的图计算,如快速找出(srcId, dstId)的属性值attr,找出以srcId为源顶点的所有边等操作若按遍历方式处理,效率将非常低。
2015-11-02 09:29:37 5339 1
c8800_recovery4.0.1.5.zip
2011-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人