Zsp 's Space

月波成露露成霜,借与南枝做淡妆。

排序:
默认
按更新时间
按访问量

Linux-awk命令学习整理

awk命令学习整理 1、对文件进行百分之一的采样,即每100行采样一次: cat sample.txt | awk 'BEGIN{n=0}{n++;if(n%100==1)print $0}' >sample_new.txt cat:文本输出 |:管道,把前...

2018-10-11 10:41:20

阅读数:11

评论数:0

荷兰国旗问题

package Some_Algorithm; /** * Author: songpo.zhang * Date: 2018/8/29 * Target: * 荷兰国旗问题 */ public class NetherlandsFlag { /** * ...

2018-08-29 20:15:30

阅读数:39

评论数:0

Spark学习笔记:五、Spark编程基础

一、RDD创建 RDD可以通过两种方式创建: 1、读取一个外部数据集。比如,从本地文件加载数据集,或者从HDFS文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件(Hadoop提供的 SequenceF...

2018-08-23 15:15:04

阅读数:39

评论数:0

Spark学习笔记:四、WordCount字频统计入门程序(基于IntelliJ IDEA使用Scala+SBT)

一、环境准备: Ubuntu16.04 IDEA Ultimate(破解版、教育版) Java JDK 1.8 Hadoop2.7 (伪单机模式) Spark 2.1.0 Hadoop与Spark的安装过程本文省略 二、IDEA + SBT IDEA安装Scala插件(自带sb...

2018-08-21 11:36:21

阅读数:40

评论数:0

VMware安装虚拟机提示句柄无效、vmci.sys不正确、模块“DevicePowerOn”启动失败 问题解决

1、在虚拟机安装文件夹里找到 .vmx 后缀的文件; 2、右键用记事本或者 notepad++ 打开这个文件; 3、找到 vmci0.present = "TRUE" 这一行,将TRUE 改为 FALSE,保存好搞定。...

2018-08-18 11:56:35

阅读数:137

评论数:0

Spark学习笔记:三、RDD原理

一、RDD原理: 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算。 RDD提供了一组丰富的操作以支持常见的数据运算,分为“...

2018-08-18 11:02:30

阅读数:51

评论数:0

Spark学习笔记:二、Spark运行架构

一、几个重要的概念: 1、RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型; 2、DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系; ...

2018-08-18 10:52:35

阅读数:37

评论数:0

Spark学习笔记:一、Spark简介

Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研究性项目,其诸多核心理念均源自学术研...

2018-08-18 10:48:48

阅读数:37

评论数:0

Python列表生成器与生成器

一、列表生成器 列表生成式即List Comprehensions >>>list(range(1,5)) [1, 2, 3, 4] >&g...

2018-08-16 19:26:10

阅读数:36

评论数:0

一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了

作者:Xiaoyu Ma 链接:https://www.zhihu.com/question/27974418/answer/38965760 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本...

2018-08-15 13:52:14

阅读数:54

评论数:0

Hadoop fs 常用命令

常用命令: hadoop fs -ls hdfs_path //查看HDFS目录下的文件和子目录 hadoop fs -mkdir hdfs_path //在HDFS上创建文件夹 hadoop fs -rm hdfs_path //删除HDFS上的文件 hadoop fs -rmr hdf...

2018-08-15 13:49:09

阅读数:143

评论数:0

Hive SQL(HQL)常用语法学习整理

更行中 create database if not exists hive; create table if not exists hive.usr( name string comment 'username', pwd string comment 'pass...

2018-08-14 15:57:17

阅读数:141

评论数:0

剑指Offer:从尾到头打印链表

输入一个链表,按链表值从尾到头的顺序返回一个ArrayList。 import java.util.ArrayList; import java.util.Collections; public class Solution { public ArrayList&lt...

2018-08-13 16:00:48

阅读数:16

评论数:0

剑指Offer:替换空格

请实现一个函数,将一个字符串中的每个空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。 Python: # -*- coding:utf-8 -*- class Solution: # s 源字符串 def...

2018-08-13 15:46:16

阅读数:23

评论数:0

剑指Offer:二维数组中的查找

在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。 public boolean Find(int target, int[][] matrix) { if (matrix...

2018-08-13 15:32:20

阅读数:19

评论数:0

GitHub如何下载clone指定的tag

如上图,我想下载Tags标签为solution-4 的代码,如何处理呢? 命令如下: git clone --branch solution-4 git@github.com:zspo/learngit.git git clone --branch [tags标签] [git地址...

2018-08-12 19:22:19

阅读数:329

评论数:0

Java获得数组的最大值(最小值)及对应的索引

获得最大值及最大值索引 public static int[] getMaxIndex(int[] arr) { if(arr==null||arr.length==0){ return null;//如果数组为空 或者是长度为0 就返回null ...

2018-08-12 19:02:39

阅读数:226

评论数:0

Scala小案例:WordCount

wordcount目录下有两个文件:word1.txt、word2.txt 程序的目的就是统计这两个文件中单词的数量 其中word1.txt中内容为: Hello World Hello Scala Scala Learning For Spark Scala word2.txt中内容为:...

2018-08-09 15:32:30

阅读数:71

评论数:0

Scala:基本数组结构

定长数组: val intValueArr = new Array[Int](3) //声明一个长度为3的整型数组,每个数组元素初始化为0 intValueArr(0) = 12 //给第1个数组元素赋值为12 intValueArr(1) = 34 //给第2个数组元素赋值为34 in...

2018-08-09 09:17:48

阅读数:38

评论数:0

Python--OS模块的一些方法学习笔记

OS模块用来处理文件及目录 1、os.walk() os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]]) top : 需要遍历的目录地址 返回的是一个三元组(root,dirs,files) : root ...

2018-08-05 16:57:51

阅读数:30

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭