2018年05月_匿名啊啊啊

原创 SparkSQL学习（三）SparkSQL读取Mysql的两种方式

第一种：package Mysqlimport java.util.Propertiesimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.{SparkConf, SparkContext}object SparkSQL1 ...

2018-05-27 21:40:17 8867 1

原创面试2

我现在知道自己的实践能力比较欠缺，也希望自己能够在公司里得到更多的实践。

2018-05-25 17:17:43 226

原创 SparkStreaming项目（实时统计每个品类被点击的次数）

1、项目的流程：2、需求实时统计每个品类被点击的次数（用饼状图展示）：3、分析设计项目新建一个Maven项目：pom文件：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/20...

2018-05-23 22:39:55 9918 1

原创 Mysql学习（三）Spark（Scala）写入Mysql的两种方式

package totalimport org.apache.spark.sql.{DataFrame, Row, SQLContext, SparkSession}import org.apache.spark.{SparkConf, SparkContext}import java.util.Propertiesimport org.apache.spark.rdd.RDDimpo...

2018-05-22 08:36:05 4612

原创 kafka学习（六）-API连接kafka操作（direct方式）

参考spark官方文档 kafkaAPI需要先启动kafka，创建一个主题：package sparkstreaming.lesson08import kafka.serializer.StringDecoderimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.kafka...

2018-05-21 23:12:20 1333

1、软件下载Anaconda官网2、软件安装双击下一步，就可以了。3、测试使用4、Pycharm与anaconda关联将Python27里面的这两个文件放入C:\ProgramData\Anaconda2\Lib\site-packages 目录如果这个里面没有Anaconda/python.exe。需要：Site-packages下有刚刚添加的文件：代码开发，运行结果正常：#! /usr/bi...

2018-05-21 21:37:44 2736

原创 Spark学习（一）SparkStreaming的官方文档

官网地址1、简介1.1　概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果...

2018-05-21 11:22:42 694

原创 Spark GraphX学习（一）图（GraphX ）简介

1、图（GraphX）1.1、基本概念图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种数据结构。这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模，图可以用来表示自然发生的连接数据，如：社交网络、互联网web页面常用的应用有：在地图应用中找到最短路径、基于与他人的相似度图，推荐产品、服务、人际关系或媒体。2、术语2.1、顶点和边一般关系图中，事物为顶点，关系为边2...

2018-05-21 10:43:57 17869

原创 Spark学习（二）SparkStreaming的官方文档

1、SparkCore、SparkSQL和SparkStreaming的类似之处2、SparkStreaming的运行流程2.1　图解说明2.2　文字解说1、我们在集群中的其中一台机器上提交我们的Application Jar，然后就会产生一个Application，开启一个Driver，然后初始化SparkStreaming的程序入口StreamingContext；2、Master会为这个Ap...

2018-05-20 22:55:47 381

原创企业

项目背景：社会工程学原理《欺骗的艺术》编写方案要诀：任何政策要从国家政策方面入手。voip技术VOIP技术：数据：项目的工作流程：大数据软件开发流程图：功能架构图，技术架构图，逻辑架构图，网络拓扑图...

2018-05-20 19:27:07 343

原创面试中必须要会的知识点

1、项目都分析过哪些业务模型参考各个需求文档：离线的报表（展示量，点击量，点击率，参与竞价数，竞价成功数，消费）终端设备分析（运营商，联网方式，操作系统，客户端）渠道分析媒体分析统一用户识别数据标签化用户上下文标签合并图计算再次合并标签把标签存入HBase，再次合并标签 --> 数据到了HBase以后，就到了精准营销部门2、项目中的知识点1）parquet文件存储（列式存储）a、可以跳过不符...

2018-05-19 23:00:56 311

原创 SparkCore编程（一）-分组取topN

1、文件数据Spark,100Hadoop,62Flink,77Kafka,91Hadoop,93Spark,78Hadoop,69Spark,98Hadoop,62Spark,99Hadoop,61Spark,70Hadoop,75Spark,88Hadoop,68Spark,90Hadoop,612、Scala代码：package topNimport or...

2018-05-16 19:03:12 1237

原创 Azkaban学习（一）Azkaban的基础介绍

1、为什么需要工作流调度器（1）一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等（2）各任务单元之间存在时间先后及前后依赖关系（3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行例如，我们可能有这样一个需求，某个业务系统每天产生 20G 原始数据，我们每天都要对其进行处理，处理步骤如下所示：　...

2018-05-11 19:49:28 486

原创 Redis学习（一）Redis集群的安装

1、下载下载redis。官网下载3.0.0版本，之前2.几的版本不支持集群模式下载地址：https://github.com/antirez/redis/archive/3.0.0-rc2.tar.gz2、上传服务器，解压，编译[hadoop@hadoop02 ~]$ tar -zxvf redis-3.0.0-rc2.tar.gz -C apps/进入[hadoop@hadoop02 redis...

2018-05-10 22:04:04 222

原创大数据数据集成和开发社招笔试题

1、Shell部分(35分)1.1、$*, $@, $#,$0,$?有什么区别?(3分)[答] $*和$@都表示参数列表; $#表示参数的个数,常用于循环; $0表示当前脚本名称; $?表示上一个命令退出的状态码.1.2、如何获取文本文件的第10行(2分)[答] 1) cat a.txt | awk 'NR==10' 2) cat a.txt | sed '10!d' 3) cat a.txt ...

2018-05-09 16:21:37 3642

原创 Flume和kafka连接测试

Flume的配置文件：（和kafka连接的配置文件）#文件名:kafka.properties#配置内容：分别在linux系统里面建两个文件夹：一个文件夹用于存储配置文件（flumetest），一个文件夹用于存储需要读取的文件（flume）a1.sources = s1a1.channels = c1a1.sinks = k1a1.sources.s1.type = netcata1.s...

2018-05-08 21:19:57 2852

原创 Kafka学习（四）Kafka的安装

1、下载下载地址：http://kafka.apache.org/downloads.htmlhttp://mirrors.hust.edu.cn/apache/2、安装前提（zookeeper安装）参考http:https://blog.csdn.net/qq_41851454/article/details/796430933、安装此处使用版本为kafka_2.11-0.8.2.0.tgz2....

2018-05-08 16:38:07 482

原创 Kafka学习（五）Kafka在zookeeper中的存储

1、Kafka在zookeeper中存储结构图2、分析2.1、topic注册信息需要先启动zookeeper，用这个命令 zkCli.sh 进入zookeeper。/brokers/topics/[topic] :存储test的topic的partitions所有分配信息[zk: localhost:2181(CONNECTED) 1] get /brokers/topics/topic2Sche...

2018-05-08 14:55:51 2260

原创 Kafka学习（三）Kafka的高可用

1、高可用的由来1.1　为何需要Replication在Kafka在0.8以前的版本中，是没有Replication的，一旦某一个Broker宕机，则其上所有的Partition数据都不可被消费，这与Kafka数据持久性及Delivery Guarantee的设计目标相悖。同时Producer都不能再将数据存于这些Partition中。如果Producer使用同步模式则Producer会在尝试重新...

2018-05-08 14:27:10 739

原创 Kafka学习（二）Kafka的架构

1、kafka的架构如上图所示，一个典型的Kafka 集群中包含若干Producer（可以是web 前端产生的PageView，或者是服务器日志，系统CPU、Memory 等），若干broker（Kafka 支持水平扩展，一般broker 数量越多，集群吞吐率越高），若干Consumer Group，以及一个Zookeeper 集群。Kafka 通过Zookeeper 管理集群配置，选举leade...

2018-05-08 13:02:22 175

原创 Kafka学习（一）Kafka的简介

1、简介1.1　概述Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是：日志收集系统和消息系统。Kafka主要设计目标如下：以时间复杂度为O(1)的方...

2018-05-08 11:25:57 292

原创 Flume学习（三）Flume的配置方式

1、单一代理流配置1.1　官网介绍http://flume.apache.org/FlumeUserGuide.html#avro-source通过一个通道将来源和接收器链接。需要列出源，接收器和通道，为给定的代理，然后指向源和接收器及通道。一个源的实例可以指定多个通道，但只能指定一个接收器实例。格式如下：实例解析：一个代理名为agent_foo，外部通过avro客户端，并且发送数据通过内存通道给...

2018-05-07 21:50:59 2620

原创 Flume学习（二）Flume的Source类型

1、概述官方文档介绍：http://flume.apache.org/FlumeUserGuide.html#flume-sources2、Flume Sources 描述2.1　Avro Source2.1.1　介绍监听Avro端口，从Avro client streams接收events。当与另一个（前一跳）Flume agent内置的Avro Sink配对时，它可以创建分层收集拓扑。监听AV...

2018-05-06 22:27:51 3629

原创 Flume学习（一）Flume的基础介绍

1、背景Hadoop业务的整体开发流程：从Hadoop的业务开发流程图中可以看出，在大数据的业务处理过程中，对于数据的采集是十分重要的一步，也是不可避免的一步.许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析...

2018-05-06 22:04:28 324

原创 Flume学习（一）

流配置单一代理流配置案例1:通过flume来监控一个目录，当目录中有新文件时，将文件内容输出到控制台。#文件名:sample1.properties#配置内容：分别在linux系统里面建两个文件夹：一个文件夹用于存储配置文件（flumetest），一个文件夹用于存储需要读取的文件（flume）#监控指定的目录，如果有新文件产生，那么将文件的内容显示到控制台#配置一个agent agent的名称可...

2018-05-06 19:40:39 384

原创 SparkSQL学习（二）SparkSQL的自定义函数UDF

在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种：UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等UDAF（User- Defined Aggregation Funcation），用户自定义聚合函数，类似在group by之后使用的sum,avg等UDTF(User-Defined Table-Generat...

2018-05-04 22:55:36 1122

原创 SparkSQL学习（一）SparkSQL简单使用

1、SparkSQL的进化之路1.0以前： Shark1.1.x开始： SparkSQL(只是测试性的) SQL1.3.x: SparkSQL(正式版本)+Dataframe1.5.x: SparkSQL 钨丝计划1.6.x： SparkSQL+DataFrame+DataSet(测试版本)1.x: SparkSQL+DataFrame+DataS...

2018-05-04 21:25:48 1294

原创 Spark学习之路（十二）Spark分区

1、分区的概念分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。2、为什么要进行分区数据分区，在分布式集群里，网络通信的代价很大，减少网络传输可以极大提升性能。mapreduce框架的性能开支主要在i...

2018-05-03 22:41:08 470

原创 ZooKeeper学习（二）ZooKeeper原理解析

ZooKeeper中的各种角色ZooKeeper与客户端每个Server在工作过程中有三种状态：　　LOOKING：当前Server不知道leader是谁，正在搜寻　　LEADING：当前Server即为选举出来的leader　　FOLLOWING：leader已经选举出来，当前Server与之同步Zookeeper节点数据操作流程注：　　　　　　1.在Client向Follwer发出一个写的请求...

2018-05-02 22:28:07 202

原创 hive自定义函数

hive的自定义函数包括UDF,UDAF,UDTF三种类型1、UDF是单行函数自定义时需要继承UDF类,然后实现evaluate方法即可代码例子：package test; import java.util.ArrayList; import org.apache.hadoop.hive.ql.exec.UDF; public class ConnStr2 ex...

2018-05-02 21:31:43 1879

potter