关闭

[置顶] spark常用RDD算子 汇总(java和scala版本)

spark RDD的算子挺多,有时候如何灵活的使用,该如何用一下子想不起来,这一段时间将spark的算子如何使用的例子给记录了下来,下面是spark RDD 的一些常用算子的使用 这些算子包括有java的,也有scala的语言,由于精力有限,暂时没有python的,以后有空再加上吧 spark RDD算子(一) parallelize,makeRDD,textFile spark RDD算子(...
阅读(708) 评论(0)

centos虚拟机网络配置NAT模式和桥接模式总结

每次装虚拟机,都需要配置网络IP,或者是装hadoop,zookeeper等各种集群服务器的时候,都需要配置网络,每次都还挺麻烦的,需要网上各种经验,本人也配置过很多次了,但是还是需要去网上找资料,还各种容易出问题,这次重装电脑,就做个笔记吧NAT模式如果想玩NAT模式: 先把该虚拟机设置成NAT模式: 虚拟机设置->网络适配器->右边选择NAT模式 修改/etc/sysconfig/netwo...
阅读(156) 评论(0)

SecureCRT8.0安装与破解

每次电脑在重装后,想要装几个虚拟机玩一玩,总是要碰到网络配置,SecureCRT等的安装问题,每次都要百度半天,各种破解工具的网站的工具又不敢下载(被各种软件下载的网站病毒搞怕了),这次装好了,做个总结。 本教程针对windows版本,若是ubuntu或者其他版本,需要下载对应的工具 安装securtCRT安装包和破解工具下载地址: 链接:http://pan.baidu.com/s/1n...
阅读(133) 评论(1)

浅谈分布式服务协调技术 Zookeeper

Google的三篇论文影响了很多很多人,也影响了很多很多系统。这三篇论文一直是分布式领域传阅的经典。根据MapReduce,于是我们有了Hadoop;根据GFS,于是我们有了HDFS;根据BigTable,于是我们有了HBase。而在这三篇论文里都提及Google的一个Lock Service —— Chubby,哦,于是我们有了Zookeeper。随着大数据的火热,Hxx们已经变得耳熟能详,现在作...
阅读(176) 评论(0)

你真的愿意主动加班吗

与其问IT 行业加班,到底有没有价值,为何不反一下,真的愿意主动加班吗。 it行业加班是普遍现象,千万不要和程序猿抱怨工作累曾经的一个在国企朋友向我抱怨,内容是这样的:“8点30过一分钟打卡就算迟到,5点30打卡就算早退,觉得太不公平了,工作太累了”,据我所知,该同学工作很轻松,每天基本就是盖盖章,谢谢报告等,每天能8点半上班,5点30还没到,公司都人都准备好东西排队打卡回家了。!!!!!有没有搞错...
阅读(2154) 评论(0)

动态规划之基本概念

致曾经的自己曾经大学学过的数学当中,最喜欢的就是高等数学和运筹学,不仅仅和自己爱好有关,也和老师有关,华科的老师都很负责。运筹学,本就以实际例子为例讲解,模型设计极为巧妙,优化方法非常有趣,并且叫我们运筹学的老师年轻漂亮,教学效果还很好。所以虽然这么久了。我依然还记得很多里面的内容,由于最近工作碰到几个算法,属于道路优化相关,设计到了运筹学的一些知识,于是又花时间将将运筹学给看了一遍,突然发现运筹学...
阅读(178) 评论(0)

spark-2.2.0源码阅读环境的搭建

下载源码去官网 下载 spark-2.2.0.tgz解压后,用idea打开pom maven需要下载很多包,并且加载,需要等待一下,最好建议改成阿里云的依赖仓库,这样比较快。不改也可以找到example包中的SparkPi类,setMaster后运行这个类运行的时候肯定会报错,很多情况下就是找不到类。spark源码放在idea中还是比较坑的啊,真是麻烦,但是一般也就下面两种情况,安装下面的方法就可以...
阅读(497) 评论(0)

github+hexo搭建免费博客

前提: 安装好了git,有github账号安装hexo$ npm install -g hexo 出现 npm WARN deprecated swig@1.4.2: This package is no longer maintainedC:\Users\kaishun\AppData\Roaming\npm\hexo -> C:\Users\kaishun\AppData\Roaming\n...
阅读(819) 评论(0)

Hadoop MultipleOutputs.addNamedOutput 多个输出

MultipleOutputs.addNamedOutput作用在Reduce阶段,我们可能想对每一个输出的key进行单独输出一个目录或文件。使用方法 main方法中注册,其中namedOutput为别名,不能是中文,不能包含下划线_ MultipleOutputs.addNamedOutput(Job job, String namedOutput, Class<? extends Outp...
阅读(239) 评论(0)

Hadoop MultipleInputs.addInputPath 读取多个路径

MultipleInputs.addInputPath作用可以指定多个输入路径,每个路径都可以指定相应的map方法使用方法MultipleInputs.addInputPath (Job job, Path path, Class inputFormatClass, Class mapperClass)举例使用word...
阅读(231) 评论(0)

写博客的原因和目的

引入点由于前几天天行vpn被封,都不知道如何访问google了,突然感觉没有google的世界是多么的恐怖,很是怀恋之前的vps,突然想到,曾经的大学舍友很喜欢捣鼓这个,就问了问还有没有代理的方法,哇,不问不知道,一问吓一跳,一年多不见,今天才知道肥羊竟然是这方面的高手,然后完美解决了我这里的问题: 肥羊的博客: https://v2no.com/ – 全是免费域名,搭建什么的。写了好多的教...
阅读(213) 评论(0)

Hadoop Configuration 管理配置文件与传递参数

作用: 用来管理配置文件,设置参数 用来传递参数 分析查看Configuration的源码可以看到文件加载了这两个配置,所以在集群中,如果直接 Configuration conf = new Configuration(); 不给conf配置的话,会默认去读取DefaultResource这两个参数的内容addDefaultResource("core-default.xml"); addDefa...
阅读(225) 评论(0)

jar读取资源配置文件,jar包内包外,以及包内读取目录的方法

java程序打成jar包后,经常碰到一些资源文件找不到等问题,最近总结了一下之前用到的几种获取路径、资源文件的方法测试代码代码如下,并且打成jar包package cn.zks.pathtest;import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOExcepti...
阅读(338) 评论(0)

java本地调用cmd,shell命令,远程调用Linux执行命令方法总结

有时候经常会碰到需要远程调用Linux或者本地调用Linux或者本地调用cmd的一些命令,最近小结了一下这几种用法本地调用cmd命令 @Test public void testCmd()throws Exception{ String cmd="cmd /c date"; //命令的前面必须要有cmd /c execCmd(cmd); }...
阅读(842) 评论(1)

geohash的特点,局限性和思考

geohash原理原理参考: http://blog.jobbole.com/80633/,其实就是有限二分法而已使用场景一般用于查找周边,具体可以网上百度为什么不直接使用经纬度 如果查找周边,使用经纬度,需要用到经度>多少,经度多少,纬度<多少,在数据库中就用不到索引 有的人认为如果确定了多少米的范围,那么直接使用经纬度的某个经度,合在一起,也可以作为一维,例如纬经度分别为22.21...
阅读(337) 评论(0)

资源学习网站,不断更新

大数据Laurence的技术博客 http://blog.csdn.net/bluishglc?viewmode=contents 过往记忆 https://www.iteblog.com/ spark性能调优 http://blog.csdn.net/u012102306/article/details/51322209 一些比较好的文章美团点评技术团队 http://tech.meit...
阅读(211) 评论(0)
107条 共8页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:147874次
    • 积分:2404
    • 等级:
    • 排名:第16162名
    • 原创:94篇
    • 转载:4篇
    • 译文:6篇
    • 评论:19条
    文章分类