Spark写Parquet源码分析

Spark层面 Spark层面我们从dataframe.write.parquet("path")说起。 In DataFrame Dataset中的write()方法: /** * Interface for saving the content of ...

2019-01-23 00:36:30

阅读数 259

评论数 0

Spark2.1和2.2 SQL物理执行策略关键源码分析

1. 文章开始之前 先附上一句SQL,使用tpc-ds的表结构,我们围绕这句SQL讲。 SQL: SQL> select avg(cs_ext_discount_amt) from catalog_sales, date_dim where d_date between...

2018-10-14 10:35:58

阅读数 78

评论数 0

Storm的可靠性与ack机制

无论是实时处理还是离线处理,都会遇到一个不可避免的问题是,失败任务如何重做?Storm提供了一个ack机制。首先来看一下ISpout接口的方法。 1 Spout的可靠性 ISpout.java部分源码: public interface ISpout extends Serializable...

2018-08-26 12:46:23

阅读数 74

评论数 0

Python爬虫简单笔记之BeautifulSoup4的简单用法

本文首发:http://blog.orisonchan.cc/2018/08/16/44 记录一下Python爬虫常用库BeautifulSoup4的简单用法。其中demo均以自己的博客网站为对象。 1 urllib和urllib2 Python中包含了两个网络模块,分别是urllib与ur...

2018-08-16 23:51:50

阅读数 201

评论数 0

常见“树”概念解析(1)

树是许多成熟的项目所使用的基本数据结构,也是面试常考、程序员必备的重中之重。 1 底层基础概念 1.1 平衡树 所谓平衡树的平衡,就是树上某节点的所有子树的高度差的绝对值不超过1,该规律应用在树中所有节点上。如果该树是二叉树,则该树是常见的是平衡二叉树。 1.2 平衡二叉树 满足平衡树概...

2018-08-14 23:45:29

阅读数 81

评论数 0

写一个Spark DataSource的随手笔记

真的只是个随手笔记。记录下一些操作过程。 背景 最近需要实现一些Spark逻辑计划和物理计划的优化,遂打算写一点简单的数据源来测试。突然想到了Oracle常见的scott/tiger里的数据。遂打算使用该数据。 获得数据 毕竟装Oracle是个大工程,没有必要为了做个测试单独安装一个Ora...

2018-08-09 23:22:48

阅读数 119

评论数 0

Hadoop 集中式的缓存管理demo

参考文献: http://www.infoq.com/cn/articles/hdfs-centralized-cache https://blog.csdn.net/javastart/article/details/50586743 从Hadoop 2.3.0 开始,加入了集中式缓存管理...

2018-08-09 23:21:23

阅读数 153

评论数 0

关于Kafka远程生产和消费的额外说明

网上有太多此类帖子,然而本帖比他们全面。 背景 有一台阿里云服务器A,用作测试服务器,一台华为服务器B,用作生产服务器。均搭建相同配置和版本Apache Kafka。现在需远程生产和消费Kafka。在服务器B均无错误,在服务器A死活不通。 问题排查 iptable input和outp...

2018-08-09 23:19:36

阅读数 361

评论数 0

记一次阿里云磁盘挂载

其实本来磁盘挂载这件事情已经做过很多次了,但是从来没有一个详细的记录。借有次机会,做个记录。 背景 因为做一些自己的项目对服务器的依赖越来越大,又正好狗年春节发生了一件极其打击我的事情,个人PC机装的Ubuntu系统崩了并且再也重装不上任何Linux系统,所以只能把测试环境移到自己的私人服务器...

2018-08-09 23:18:42

阅读数 420

评论数 0

记一次Redis漏洞导致服务器被入侵以及解决的过程

其实这个问题在网上都有说明。然而因为本人是开发出身,运维方面比较欠缺,所以才会遇到此问题,遂记录下来,以此为戒。 被入侵现象 服务器多了很多莫名其妙的操作,根据查看操作记录命令history得到。 服务器会莫名其妙重启。 经常ssh免密登录失效。 apt-ge...

2018-08-09 23:17:45

阅读数 434

评论数 0

Kafka 架构与分布式使用

名词解释 Broker Kafka集群包含一个或多个服务器,这种服务器被称为broker。 Topic 每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上但用户只需指定消息的T...

2018-08-09 23:16:45

阅读数 35

评论数 0

Jira搭建踩坑

准备工作 下载 官网下载Server版本。下载完后缀名是.bin(Linux版本) JDK 1.8。 MySQL 可以建立给Jira单独的数据库用户。 但是建库是个大坑,必须要如下建立: create database jira default character set utf8...

2018-08-09 23:15:42

阅读数 442

评论数 0

翻译:Apache Spark : RDD vs DataFrame vs Dataset

 在Spark 2.0 Release中,官方提供了3种数据抽象结构供使用:RDD,DataFrame and DataSet。     对于新手来说,可能会对理解三种结构间的关系和决定使用不使用哪一种感到迷惑。本文会详细介绍区别。 简要综述     在分开讨论前,来一个简述,三种结构产生顺...

2018-08-09 23:14:15

阅读数 58

评论数 0

Hive查询HBase调用MapReduce性能优化

折腾了很久,被领导天天督促&指点,算是有个最基本的性能优化。 1. 背景介绍: Hive使用hive-hbase-handler建立HBase external table。在hive查询包含count(*)、join、以及Predicate Pushdown等操作时,...

2018-08-09 23:11:24

阅读数 299

评论数 0

在Spring中配置Hibernate和单独配置Hibernate的区别

首先说下Spring和Hibernate的几个特征: Spring:自动依赖注入,类都可以被当成bean使用。 Hibernate:会话工厂sessionfactory,事务管理器transaction。 如果只使用Hibernate,那么当你操作数据库的时候,需要敲诸如: ...

2015-12-20 16:52:46

阅读数 269

评论数 0

新手学Struts2的几个小注意事项

1、关于filter-class的类名 也许你厌倦了总是到网上找或者是翻书找类名,那么该去哪里找? 在你struts的文件夹下,找到libs,找到struts-core的jar包,用压缩文件管理器打开,相信你一定对原本的类路径有印象,很快就可以找得到。 2、关于加上filter以...

2015-10-14 22:48:50

阅读数 282

评论数 0

Oracle 11g 发行版2 新安装后关于登录的一些基本操作

首先要注意,在安装时候提示你输入的密码,是SYS用户的密码。 当你想要用这个身份登录时,打开SQL plus, 用户名:SYS as SYSDBA。 这里注意,如果你不输入as SYSDBA的话,系统会提示你,SYS用户必须作为SYSDBA登录,如果你输入as sysdba的话也不行,因为,SYS...

2015-10-08 16:08:25

阅读数 361

评论数 0

CentOS7下mariaDB和phpmyadmin的一些安装和配置问题

linux新手。。这个问题拖到现在终于下定决心解决,用了一个下午加上一个晚上减去去电影院看一部电影和吃晚饭的时间。还是蛮久的。 首先说一下,在centos7下,用yum安装的mysql都变成了mariaDB,最开始我还怕phpmyadmin不支持maria,后来网上一查是支持的。 那么...

2015-10-06 22:47:03

阅读数 308

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭