tanglizhe1105-CSDN博客

原创 WIN10 mscomm32注册，亲测可用

WIN10 mscomm32注册，亲测可用下载控件注册控件下载控件链接：百度云分享提取码：e0i7注册控件Copy MSCOMM32.OCX to C:\WINDOWS\SysWOW64(If you using 32bit Windows to C:\WINDOWS\SysWOW32)Run CMD(as Administrator)regsvr32 /u C:\WINDOWS\SysWOW64\MSCOMM32.OCXregsvr32 /i C:\WINDOWS\SysWOW64\MSC

2021-04-09 00:17:38 2720

原创 spark rdd存储开销分析

背景很多使用spark的朋友很想知道rdd里的元素是怎么存储的，它们占用多少存储空间？本次我们将以实验的方式进行测试，展示rdd存储开销性能。关于rdd的元素怎么存储，spark里面实现了好几种不同类型的rdd，如最常见的MapPartitionsRDD，它处理map,filter,mapPartition等不引起shuffle的算子；再如ShuffledRDD它由shuffle操作生成的；像G

2016-04-03 16:56:25 3747

原创 rdd算子中能使用rdd的引用吗？

rdd算子中调用的客户函数坚决不能出现任何形式的rdd引用，否则会报很严重的错误： java.lang.ClassCastException: org.apache.spark.MapOutputTrackerWorker cannot be cast to org.apache.spark.MapOutputTrackerMaster这是因为客户函数将以闭包的形式发送至各个worker。若客户

2016-03-21 11:38:50 3532

转载读完这100篇论文就能成大数据高手

今天在网上闲逛，无意间发现了这一篇好文，原文作者是PayPal高级工程总监Anil Madan，文章对当前大数据领域用到的一些技术、框架等都做了一遍梳理。本文由CSDN翻译。通过阅读本文，可以对当前大数据领域有一个很好的认识，如果需要深入了解某项技术，可以阅读文章中所给的文章或论文的相关链接，都是不可多得的好资源。开源（Open Source）用之于大数据技术，其作用有二：一方面，在大数据

2016-03-14 15:03:24 4397 1

转载深入浅出之Spark任务调度

概述Spark Application在遇到action算子时，SparkContext会生成Job，并将构成DAG图将给DAG Scheduler解析成Stage。Stage有两种： ShuffleMapStage 这种Stage是以Shuffle为输出边界其输入边界可以是从外部获取数据，也可以是另一个ShuffleMapStage的输出其输出可以是另一个Stage的开始 Shuf

2016-03-11 11:19:02 1440

原创 Spark MLlib LDA 基于GraphX实现原理及源码分析

LDA背景LDA（隐含狄利克雷分布）是一个主题聚类模型，是当前主题聚类领域最火的、最有力的模型之一，它能通过多轮迭代的方式把特征向量集合按主题分类。目前，广泛运用在文本主题聚类中。 LDA的开源实现有很多。目前广泛使用的、能够多机器并行处理大规模语料库的有实现有微软的LightLDA，谷歌plda、plda+，sparkLDA等等。下面介绍这3种LDA实现的特点： LightLDA的实现依赖于微

2016-02-25 22:20:01 7285 5

原创 Spark GraphX原理介绍

背景现实应用中，数据内部可能存在较高的关联度，如图模型应用。在对这样的数据进行处理时，并行计算框架就会面临较大的挑战，会引入大量的数据连接（join）和聚合（aggregation）操作，带来大量的计算和数据迁移，严重消耗集群资源，因此对此类算法的优化就显得极为重要。互联网上网页权值计算的PageRank算法是一个典型的图模型问题，它依据网页之间的链接指向关系来判断网页的重要性，指向一个网页的链

2016-02-25 20:29:37 14389 3

原创 google PLDA + 实现原理及源码分析

LDA背景LDA（隐含狄利克雷分布）是一个主题聚类模型，它能通过学习的方法把一组特征向量按主题分类，广泛运用在文本主题聚类中。 LDA的开源实现有很多，目前广泛使用的、能够多机器分布式并行的实现有微软的LightLDA，谷歌plda、plda+，spark MLlib LDA等等 LightLDA的实现依赖于它们自己实现的multiverso参数服务器，底层使用mpi或zeromq进行消息发送

2016-01-20 16:10:33 12261 4

原创 java/scala下的最好用的数据绘图工具breeze-viz

背景介绍一些多轮迭代的程序，像机器学习程序等等，它会在运行时会打出很多状态信息，我们通过分析打印出来的log，判断程序的性能指标。然而，由于log数据太多，信息太大，靠眼睛看往往很难掌握系统的状态变化情况，如每轮迭代的输出是如何随迭代次数变化的，各轮迭代的时间变化等等。要是能把这些状态信息打印出来，用图形显示，这会大大的减少痛苦！！breeze-viz就是用来干这件事的。您可能会问，为什么不

2016-01-18 17:13:16 10551

原创 intellij idea直接编译spark源码及问题解决

spark源码最容易的编译方式莫过于使用intel idea将源码文件夹直接当做工程打开。下载完所需的依赖包好，build -> Make Project即可！！！

2016-01-16 22:46:56 11923 1

原创 sbt如何建立intellij ieda工程

intellij安装scala plugin在file -> setting -> plugin里面可以安装安装sbt尽管scala plugin里面包含了sbt工具，我们还是要安装一个系统全局可以的sbt工具安装方法详见：http://blog.csdn.net/tanglizhe1105/article/details/50528801安装sbt plugin: gen-idea该plugi

2016-01-16 17:02:03 4967

原创 sbt的安装配置

sbt很多人都抱怨，下载jar包经常出差。修改配置，使用oschina国内源，情况会改善很多。

2016-01-16 16:58:08 11982

转载 IntelliJ IDEA 15激活

最近发布的IntelliJ IDEA 15带来了很多的新特性，想必大家都非常想使用这个版本。但是遗憾的是，该版本的注册方式和之前版本不一样，只能通过联网激活。本文将提供的方法可以完美地破解idea 15的联网注册问题。本博客提供了两种用于激活IntelliJ IDEA 15的方法：第一种需要下载相关的程序对Ideal加入相关的补丁，然后输入本博客生成的验证码即可破解；第二种只需要输入本博客

2016-01-11 16:20:41 1172

原创 java date最常用的时间格式化

// 声明一个日期类型的变量Date time = new Date();// 声明日期格式化类变量DateFormat df = new SimpleDateFormat(“yyyy-MM-dd HH:mm:ss”);// 日期格式转化为字符串格式String time_str = df.format(time.getTime());// 字符串格式转化为日期格式Date new_t

2016-01-07 20:50:26 1035

原创 java/scala优先队列(PriorityQueue)元素改变后如何实现有序

java PriorityQueue能够对加入的元素按元素（必须是可比较的Comparable）大小排序，从而出队时总是“最小”元素优先出对。然而，现实应用中存在队列从元素发生改变的情况，PriorityQueue其实并不能时刻保证元素是有序。PriorityQueue在add addAll后会进行元素重排序，其余操作不会触发元素重排序。class AB{ AB（int a int

2016-01-07 20:42:39 6137 2

原创 linux软件源码安装管理

接触linux往往觉得linux得软件安装后非常混乱，都不知道他安装在哪里，自己也曾非常彷徨，现在我把自己的经验写出来，为大家提供借鉴。linux c/c++语言开源软件常使用Makefile管理，它需要configure、make、make install 3步曲来安装软件。对xxx.tar.gz源码包解压后便可以在文件夹里进行这3步曲。./configure --prefix=/path-to-

2016-01-07 17:07:32 507

原创 ubuntu定时任务管理crontab

crontab是linux下的定时任务管理工具，系统自带。 crontab为每个用户设定了配置文件，root用户的配置文件在/etc/crontab里面，普通用户的配置文件我们可以在配置文件里/var/…。我们可以直接修改配置文件来添加添加任务，但往往不推荐这么做。因为crontab提供了更安全的方式。下面命令可以完成任务的管理： crontab -e #编辑任务 crontab -r #移

2015-11-23 22:27:38 1452

原创 Spark RDD算子源码解读

结合spark1.5.0的RDD源码API及自己一年以来的开发经验，介绍Spark RDD算子的功能、原理及调用方式。

2015-11-02 09:34:52 3449 3

原创 Spark GraphX的边构造过程详解——从 RDD[Edge[ED]] 到 EdgeRDD[ED, VD]

本文介绍Spark GraphX内部对边存储的机理，详解边分区内部的索引构建过程。在最初，边是这样的 RDD[(srcId, dstId, attr)]，它是(srcId, dstId, attr)这个三元组的集合。这种结构并不能提供有效的图计算，如快速找出(srcId, dstId)的属性值attr，找出以srcId为源顶点的所有边等操作若按遍历方式处理，效率将非常低。

2015-11-02 09:29:37 5339 1