自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

在知识的海洋中遨游

java工程师学习过程中的总结

原创 python小知识点整理

1.Python 字典初始化dict()和{}的区别 性能方面,{}性能更好 比较两者的字节码: 通过{}初始化,只需要通过一次常量指令即可完成, 通过dict(),需要执行CALL_FUNCTION指令。 2.defaultdict方法 在python中访问不存在的键会抛出K...

2019-06-12 10:52:02

阅读数 117

评论数 0

原创 Windows上配置Python+Spark开发环境

1.软件准备: 下载资源合集:https://download.csdn.net/download/qq_33283652/11060712 https://download.csdn.net/download/qq_33283652/11060746 spark2.2.0https://a...

2019-03-25 14:21:54

阅读数 63

评论数 0

原创 docker使用教程

一、简介 Docker的应用场景 Web 应用的自动化打包和发布。 自动化测试和持续集成、发布。 在服务型环境中部署和调整数据库或其他的后台应用。 从头编译或者扩展现有的OpenShift或Cloud Foundry平台来搭建自己的PaaS环境。 Docker 的优点 1、简化程序...

2019-03-22 15:22:14

阅读数 52

评论数 0

原创 图形数据库---neo4j

官网:https://neo4j.com/ 一、简介 Neo4j是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。 它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。 Neo4j也可以...

2019-03-19 11:22:52

阅读数 145

评论数 0

原创 各大搜索引擎比较

一、前期准备 从生活需求和技术需求两方面对各大搜索引擎的搜索结果进行比较。 搜索引擎测试对象: 百度 Google Bing 360搜索 测试问题: 床单泛黄的清洗方法 docker与Vmware的区别 咖啡杯的烧纸用途(测试输入错误时的智能匹配,实际问题:咖啡杯的勺子用途) 二...

2019-02-27 15:04:16

阅读数 1234

评论数 0

原创 bash学习记录

一、基本用法 1.脚本文件开头为 #!/bin/bash 并设置权限为可执行: chmod +x file 2.给变量赋值及读取变量 #给变量赋值 name = "Sam" #读取变量 echo ${name}或echo $name 3.把命令的输出,赋...

2019-02-20 16:41:05

阅读数 105

评论数 1

原创 正则表达式学习记录

注意:把必须匹配的情况考虑周全并写出一个匹配结果符合预期的正则表达式很容易,但把不需要匹配的情况也考虑周全并确保它们都被排除在匹配结果之外往往要困难得多。 一、常用字符含义 1.常用的字符含义 字符 描述 表达式 可能...

2019-02-20 12:04:09

阅读数 81

评论数 0

原创 大数据实战练习(三、卡扣监控)

一、项目需求 统计正常的卡扣个数,异常的卡扣个数,正常的摄像头个数,异常的摄像头个数,异常的摄像头详细信息。 正常卡扣个数:monitor_camera_info 基本关系表中卡扣与摄像头的关系与在monitor_flow_action 监控数据表中,卡扣与摄像头的关系完全对应上 异常的卡扣...

2019-01-18 14:20:26

阅读数 143

评论数 0

原创 大数据实战练习(二、模拟数据)

一、集群启动 1.启动zookeeper 2.启动hdfs 3.启动standalone ./sbin/start-all.sh 4.启动hive ./hive --service metastore & 二、编写代码 1.模拟生成数据 public cla...

2019-01-16 09:28:27

阅读数 396

评论数 0

原创 大数据实战练习(一、项目概览)

一、大数据处理框架 二、项目背景  https://download.csdn.net/download/qq_33283652/10915786 根据对车流量的监控进行数据清洗及分析 三、项目代码 https://download.csdn.net/download/qq_3328...

2019-01-14 15:09:32

阅读数 422

评论数 0

原创 Storm学习记录(九、事物)

目的:保证消息有且只被执行一次 一、分类 1.强顺序流(强有序) 引入事务(transaction)的概念,每个transaction(即每个tuple)关联一个transaction id。 Transaction id从1开始,每个tuple会按照顺序+1。 在处理tuple时,将处...

2019-01-14 13:23:05

阅读数 40

评论数 0

原创 Storm学习记录(八、项目演练)

一、项目背景 模拟分析中国移动某个基站的小区掉话率 二、代码实现  https://download.csdn.net/download/qq_33283652/10915043 https://download.csdn.net/download/qq_33283652/109151...

2019-01-14 10:47:53

阅读数 47

评论数 0

原创 Storm学习记录(七、flume+storm+kafka整合)

一、集群启动 1.启动zookeeper 2.启动kafka ./bin/kafka-server-start.sh -daemon ./config/server.properties 3.搭建flume集群 3.1上传并解压flume jar包 3.2修改conf下的flume-...

2019-01-13 21:59:00

阅读数 225

评论数 0

原创 Storm学习记录(六、分布式远程过程调用)

一、简介 DRPC 是通过一个 DRPC 服务端(DRPC server)来实现分布式 RPC 功能的。 DRPC Server 负责接收 RPC 请求,并将该请求发送到 Storm中运行的 Topology,等待接收 Topology 发送的处理结果,并将该结果返回给发送请求的客户端。(其实...

2019-01-13 19:35:30

阅读数 88

评论数 0

原创 Storm学习记录(五、容错机制)

1.集群各节点挂掉的影响  nimbus挂掉对集群影响较小。 当某个supervisor 挂掉后,zookeeper会向nimbus返回信息,当发现nimbus也挂掉后,会要求nimbus重启。 当有新任务上传时,也会要求nimbus重启。 其余的时候nimbus是闲置状态。 sup...

2019-01-13 15:06:48

阅读数 88

评论数 0

原创 Storm学习记录(四、并发机制和通信机制)

一、并发机制 Worker – 进程:一个Topology拓扑会包含一个或多个Worker(每个Worker进程只能从属于一个特定的Topology) 这些Worker进程会并行跑在集群中不同的服务器上,即一个Topology拓扑其实是由并行运行在Storm集群中多台服务器上的进程所组成 E...

2019-01-12 22:39:50

阅读数 664

评论数 1

原创 Storm学习记录(三、Storm集群搭建)

一、单机搭建 1.上传并解压jar包 2.在storm目录下创建logs目录,以保存程序运行时的信息 mkdir logs 3.在bin目录下执行命令,启动zookeeper ./storm dev-zookeeper >> ../logs/dev-zoo...

2019-01-12 22:34:17

阅读数 34

评论数 0

原创 Storm学习记录(二、分发策略与架构)

一、分发策略 Shuffle Grouping:随机分组,随机派发stream里面的tuple,保证每个bolt task接收到的tuple数目大致相同。轮询,平均分配  Fields Grouping:按字段分组,比如,按"user-id"这个字段来分组,那么具有同样&q...

2019-01-12 17:10:56

阅读数 59

评论数 0

原创 Storm学习记录(一、简介)

一、简介 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。 Storm有如下特点: 编程简单:开发人员只需要关注应用逻辑,而且跟Hadoop...

2019-01-12 14:25:41

阅读数 39

评论数 0

原创 spark学习记录(十四、kafka)

一、简介 kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。 Kafka架构是由producer(消息生产者)、consumer(消息消费者)、bo...

2019-01-10 16:47:05

阅读数 70

评论数 0

原创 spark学习记录(十三、SparkStreaming)

一、SparkStreaming简介 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处...

2019-01-09 20:47:41

阅读数 40

评论数 0

原创 spark学习记录(十二、Spark UDF&UDAF&开窗函数)

一、UDF&UDAF  public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf....

2019-01-08 20:54:07

阅读数 84

评论数 0

原创 spark学习记录(十一、Spark on Hive配置)

添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId&...

2019-01-07 20:57:26

阅读数 86

评论数 0

原创 spark学习记录(十、SparkSQL)

一、介绍 SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。 能够在Scala中写SQL语句。支持简单的SQL语法检查,能够在Scala中写Hive语句访问Hive数据,并将结果取回作为RDD使用。 DataFrame也...

2019-01-07 17:26:14

阅读数 83

评论数 0

原创 spark学习记录(八、广播变量和累加器)

一、广播变量 public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster(&...

2019-01-07 10:52:37

阅读数 47

评论数 0

原创 spark学习记录(九、MasterHA和Spark shuffle)

一、zookeeper配置MasterHA 1.1修改conf下的spark-env.sh : export SPARK_DAEMON_JAVA_OPTS="-Dspark-deploy-recoveryMode=ZOOKEEPER -Dspark.deploy.zookeep...

2019-01-06 19:43:28

阅读数 1117

评论数 1

原创 spark学习记录(七、二次排序和分组取TopN问题)

1.二次排序 例题:将两列数字按第一列升序,如果第一列相同,则第二列升序排列 数据文件:https://download.csdn.net/download/qq_33283652/10894807 将数据封装成对象,对对象进行排序,然后取出value public class Seco...

2019-01-04 10:54:05

阅读数 226

评论数 0

原创 spark学习记录(六、基础知识)

1.术语解释 2.SparkCore和SparkSQL知识点思维导图整理 https://download.csdn.net/download/qq_33283652/10890863  3.RDD的宽窄依赖 相同的key去同一个分区,但一个分区可以用不同的key RDD窄依赖:...

2019-01-03 13:45:11

阅读数 46

评论数 0

原创 spark学习记录(五、Spark基于资源调度管理器的提交模式)

一、Standalone(Spark自带) 1.1 Standalone-client模式  提交命令: ./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.SparkPi /us...

2019-01-02 11:25:46

阅读数 71

评论数 0

原创 spark学习记录(四、算子(函数))

1.Transformations转换算子 Transformations类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey等。Transformations算子是延迟执行,也叫懒加载执行。 filter:过滤符合条件的记录数,true保留,false过滤掉...

2018-12-29 16:56:06

阅读数 74

评论数 0

原创 spark学习记录(二、RDD)

一、概念 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓...

2018-12-29 14:19:22

阅读数 54

评论数 1

原创 spark学习记录(三、spark集群搭建)

一、安装spark 1.上传压缩包并解压 2.在conf目录下配置slaves cp slaves.template slaves //在master机上配置worker节点 hadoop2 hadoop3 3.配置spark-env.sh cp spark-env.sh.tem...

2018-12-29 11:35:11

阅读数 38

评论数 0

原创 spark学习记录(一、scala与java编写wordCount比较)

 添加依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactI...

2018-12-29 10:03:16

阅读数 76

评论数 0

原创 快学Scala学习记录(一、scala简介)

一、概述 1.1面向对象特性 Scala是一种纯面向对象的语言,每个值都是对象。对象的数据类型以及行为由类和特质描述。 类抽象机制的扩展有两种途径:一种途径是子类继承,另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。 1.2函数式编程 Scala也是一种函数式语言,其函数...

2018-12-28 13:51:40

阅读数 31

评论数 0

原创 HBase权威指南学习记录(五、hbase与MapReduce集成)

添加依赖: <dependency> <groupId>org.apache.hbase</groupId> <artifactId...

2018-12-26 16:13:25

阅读数 43

评论数 0

原创 HBase权威指南学习记录(四、计数器)

一、概念 很多收集统计信息的应用,例如在线广告的单击或查看统计,将这些数据收集到日志文件中用于后期的分析。 利用计数器提供的实时统计,从而放弃延时较高的批处理操作。 二、数据操作 3.java操作  public class HbaseDemo { private stati...

2018-12-26 09:53:48

阅读数 28

评论数 0

原创 HBase权威指南学习记录(三、过滤器)

      基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Fi...

2018-12-25 16:00:31

阅读数 40

评论数 0

原创 HBase权威指南学习记录(二、java操作实现增删改查)

一、表的创建及增删改查 public class HbaseDemo { private static Configuration conf = HBaseConfiguration.create(); private static Admin admin; stat...

2018-12-25 14:04:37

阅读数 60

评论数 0

原创 在本机用IDEA连接虚拟机开发hbase

1.将hbase-site.xml文件放到resourcs目录下 <configuration> <!-- 指定hbase在hdfs上存储的路径 --> <property> ...

2018-12-24 19:53:33

阅读数 511

评论数 0

原创 HBase权威指南学习记录(一、基本操作)

HBase表是由Key-Value组成的,下面给出一个hbase表的格式  此表有两个列族,列族1和列族2,其中列族1和列族2下分别有两个列name和age,phone和address  //创建表及列族 create 'student','cf1'...

2018-12-24 15:55:17

阅读数 36

评论数 0

提示
确定要删除当前文章?
取消 删除