《从0到1学习Spark》--DataFrame和Dataset探秘

昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件:Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起揭开Spark SQL背后DataFrame和Dataset的面纱。 Data...

2019-01-30 16:41:05

阅读数 18

评论数 0

《从0到1学习Spark》-- 初识Spark SQL

Spark SQL是整个Spark生态系统中最常用的组件 今天小强给大家介绍Spark SQL,小强的平时的开发中会经常使用Spark SQL进行数据分析查询操作,Spark SQL是整个Spark生态系统中最常用的组件。这也是为什么很多大公司使用Spark SQL作为大数据分析的关键组件之一。 ...

2019-01-26 13:19:02

阅读数 67

评论数 0

ClickHouse大数据实时分析领域的黑马

大数据实时分析领域的黑马是ClickHouse,一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。 clickhouse背景 俄罗斯的“百度”叫做Yandex,覆盖了俄语搜索超过68%的市场,有俄语的地方就有Yandex;有中文的地方,就有百度么?好像不一定 : ) Yandex在20...

2019-01-03 18:09:59

阅读数 473

评论数 1

互联网JAVA面试常问问题(三)

一、volatile原理和使用场景 volatile 原理 volatile变量进行写操作时,JVM会向处理器发送一条Lock前缀的指令,将这个变量所在缓存行的数据写会到系统内存。Lock前缀指令实际上相当于一个内存屏障(也成内存栅栏),它确保指令重排序时不会把其后面的指令排到内存屏障之前的位...

2018-12-29 11:36:36

阅读数 34

评论数 0

互联网JAVA面试常问问题(二)

一、线程有几种创建方式? 这是一道比较常见的java线程问题,一般就是两种线程创建方式: 继承Thread类 实现Runnable接口 继承Thread类 public class MyThread extends Thread{ private String name; p...

2018-12-25 13:19:44

阅读数 23

评论数 0

互联网JAVA面试常问问题(一)

一、为什么要创建线程池? 线程是稀缺资源,使用线程池可以减少创建和销毁线程的次数,每个工作线程都可以重复使用 可以根据系统的承受能力,调整线程池中工作线程的数量,防止因为消耗过多内存导致服务器崩溃 二、创建线程池参数有哪些及其含义 public ThreadPoolExecutor(int ...

2018-12-24 13:34:00

阅读数 38

评论数 2

spark资源调优

spark资源调优 所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分,我们同时也给出了一个调优的参考值。 c...

2018-11-27 16:19:37

阅读数 41

评论数 0

hive、impala、prestoDB 优缺点对比

hive 优点 缺点 被广泛应用,经受时间的考验 既然是基于Mapreduce,也拥有MapReduce所有缺点,包含昂贵的Shuffle操作和磁盘IO操作 运行在Mapreduce框架之上 hive仍然不支持多个reduce操作group by和order by查询 ...

2018-11-26 16:29:07

阅读数 216

评论数 0

解决A master URL must be set in your configuration

win7环境 idea spark 对应pmo文件 <properties> <spark.version>2.0.2<...

2018-06-21 10:12:31

阅读数 103

评论数 0

设计模式

Spring 等框架中使用了哪些模式 BeanFactory和ApplicationContext应用了工厂模式 在bean创建中,spirng也为不同的scope定义的对象提供了单例和原型等模式实现 aop则使用了代理模式、装饰器模式和适配器模式 各种事件监听器,是观察者模式 类似jdbct...

2018-06-07 13:30:00

阅读数 55

评论数 0

接口和抽象类的区别

接口和抽象类的区别 接口是对行为的抽象,它是抽象方法的集合,利用接口可以到达API定义和实现相分离的目的。接口,不能实例化;不能包含任何非常量成员,任何field都是隐含public static final的意义;同时,没有非静态方法的实现,也就是说要么是抽象方法,要么是静态方法。java类...

2018-06-05 19:39:11

阅读数 36

评论数 0

java有几种文件拷贝方式?哪一种最高效?

java有几种文件拷贝方式?哪一种最高效? java有多重比较典型的文件拷贝实现方式: 1、利用java.io.类库,直接为源文件构建一个FileInputStream读取,然后再为目标文件构建一个FileOutputStream,完成写入工作 public static void copy...

2018-06-04 13:25:57

阅读数 1056

评论数 0

对比Hashtable、HashMap、TreeMap有什么不同?

map的区别 hashtable、hashmap和treemap都是常见的一些map实现,是以键值对的形式存储和操作数据的容器类型 hashtable是早期java类库提供一个哈希表的实现,本身是同步的,不支持null键和值,由于同步导致的性能开销,所以已经很少被推荐使用 hashmap应用更...

2018-05-29 13:25:38

阅读数 786

评论数 2

Vector、ArrayList和LinkedList有何区别?

三者都是实现集合框架中的List,也就是所谓有序集合,因此具体功能比较近似,比如都提供按照位置进行定位、添加或删除的操作,都提供迭代器以遍历其内容等。但因具体的设计区别,在性能、线程安全等方面,表现有很大不同。 Vector是java早期提供线程安全的动态数组,如果不需要线程安全,并不建议选择,...

2018-05-28 13:16:33

阅读数 101

评论数 0

centos下修改hostname

centos6下修改hostname [root@centos6 ~]$ hostname # 查看当前的hostname [root@centos6 ~]$ vim /etc/sysconfig/network ...

2018-05-20 20:31:17

阅读数 240

评论数 0

hive

数据管理 hive的表本质就是hadoop的目录/文件,hive默认表存放路径一般都是在你的工作目录里面,按照表名做文件夹分开,如果有分区表的话,分区值是子文件夹,可以直接在其他的M/R job里直接应用这部分数据 hive支持4个数据模型: 数据表 Table External Ta...

2018-05-20 13:51:51

阅读数 69

评论数 0

模拟搭建日志收集系统

Hadoop-模拟搭建日志收集系统 一、技术点梳理 二、任务 2.1 调通单机版的thrift,python版本 2.1.1 安装thrift Hadoop-模拟搭建日志收集系统 一、技术点梳理 二、任务 当前环境: python:python2.7 java...

2018-05-16 19:06:26

阅读数 112

评论数 0

使用conda管理python环境

动机 首先在所在系统中安装Anaconda。可以打开命令行输入conda -V检验是否安装以及当前conda的版本。 环境管理 查看当前系统环境 “` conda info -e * 创建新的环境 指定python版本为2.7,注意至少需要指定python版本或者要安...

2018-05-12 14:35:20

阅读数 57

评论数 0

Centos6.5 关闭系统防火墙及内核防火墙

清空系统防火墙 iptables -F 保存防火墙配置 service iptables save 临时关闭内核防火墙 setenforce 0 永久关闭内核防火墙 vim /etc/selinux/config SELINUX=disabled...

2018-03-10 22:08:38

阅读数 226

评论数 0

解决Centos6.5虚拟机克隆后无法上网问题

问题描述 虚拟机克隆后,在新虚拟机器上ifconfig命令,只有如下的网卡的信息,不能上网。 原因 由于克隆后的系统,系统只是修改了虚拟机的名字和MAC等,并在/etc/udev/rules.d/70-persistent-net.rules文件中增加了一行名为eth1的设备名。 ...

2018-03-09 23:54:29

阅读数 68

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭