kafka原理学习 kafka:分布式,支持分区,多副本的,基于zk协调的分布式消息系统。特性:高吞吐,低延迟 每秒可以处理几十万条消息 延迟级别在毫秒级。每个topic可以分为多个partition,consumer group 可以对partition进行消费可扩展性:支持热扩展容错性:允许集群中节点失败(若副本个数为n,则允许n-1个节点失败高并发:允许数千个用户同时进行读写应用场景:日志收集:收集...
HashMap的特点和底层原理学习 HashMap与HashTable在底层实现基本是一样的,只是hashtable的方法加了synchronized关键字。ConCurrentHashMap是线程安全的,但性能比hashTable好很多,因为HashTable是锁的整个Map对象,而ConCurrentHashMap锁的是部分结构。HashMap负载因子为0.75f下标的算法:(n-1)&hash n为数组的长度 ...
flume学习日记 Flume优点:可以和任意存储进程集成。输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。一旦事务中所有的数据全部成功提交到ch...
spark的缓存级别介绍 Spark的cache、persist以及缓存级别讲解:当一个RDD被多次用到的时候。通过cache可以将RDD持久化到磁盘或者内存。cache属于transformationcache的底层调用了perist()cache和perist相同点:都是设置缓存不同点:cache底层调用了perist,但是cache只有一个默认的缓存级别=StorageLevel.MEMORY_ONLYp...
hive时间函数 1.from_unixtime:转化unix时间戳为指定时间格式select from_unixtime(292929292929,’yyyyMMdd’);select from_unixtime(345345354355,’yyyy-MM-dd’);2.unix_timestamp:获取当前unix时间戳select unix_timestamp();输出:1430816254se...
星型模型和雪花模型模型 表与表之间的关系星型模型:雪花模型:事实表关联了维度表,但是维度表关联了其他的表(国家,省市)。 维表是规范化的,减少冗余,易于维护,节省存储空间但是实际与巨大的事实表相比,这种空间的节省是相当小的,可以忽略。由于执行查询需要更多的表连接操作,雪花模型可以降低浏览的性能。所以在数仓的设计中,雪花模型不如星型模型流行。地域维表国家a GDP国家b GDP国家a 省份...
GeoHash算法的学习 一、简介将二维的经度纬度转化成字符串字符串越长代表的精度越高 5位的编码能表示10平方千米,而6位的编码约0.34平方千米字符串的相似表示距离的远近。查询指定位置的附近的商店等,只需要将所在位置的经纬度转化为geohash字符串,并于各个商店的Geohash字符串进行前缀匹配,匹配越多的越接近二、算法步骤:地球纬度区间是[-90,90], 北海公园的纬度是39.928167,...
hdfs学习笔记 Hadoop总结一、hadoop概述1.谷歌的三篇论文:《bigtable》 《GFS》 《Mapreduce》2.hadoop是一个分布式存储和分析计算框架3.hadoop组成部分: 1)hadoop common 2)hdfs 3) mapreduce 4) yarn二、hdfs设计思想1.设计思想: 1)分块存储,默认是128MB 块的大小: 1.最小化寻址开销...
hive复习日记-持续更新 hive一、 概念1.hive是一个构建在hadoop上的数据仓库管理工具(框架),可以将结构化数据文件映射成一张数据表,并使用类sql的方式对这样的文件进行操作。 hive的执行引擎 可以是 mapreduce spark tez2.hive的元数据存储在数据库 hive的数据存储在HDFS上 hive的计算是基于mr的二、优缺点1.学习成本低: 提供类sql查询语言,避免直接写mr...
redis工具类-即拿即用 连接redis集群:package com.ssq.dmp.utils.jedis;import redis.clients.jedis.*;import java.io.IOException;import java.io.InputStream;import java.util.*;import java.util.logging.Logger;/** * Jedis工具...
sparkcore和sparkSql学习 sparkcore:基本数据抽象是rddRDD:弹性分布式数据集 分布存储,分散在各个节点上,便于并行对RDD的数据进行并行计算特点: 1.RDD是只可读的,一旦生成,内容就无法修改 2.RDD可以指定缓存在内存中。一般计算都是流水式生成、使用RDD,新的RDD生成后,旧的RDD不再使用,并被java虚拟机回收掉。当后续有多个计算依赖于某个RDD时,可以让这个RDD缓存到内存中,避免重复...
大数据文件格式简单介绍 大数据文件格式:parquet(column)、 Avro(Row)、 ORC(column)相同点: 基于hadoop文件系统优化出的存储结构提供高效的压缩二进制存储格式文件可分割使用schema进行自我描述列式存储:跳过不符合条件的数据,只读取需要的数据,减少了IO...
java面试题 java面试题语言基础:java整形的字节序big-Endian(大端) 即高位字节存放在低地址端,低位字节存放在高地址端Object的方法:hascodenotifyclonefinalizewaitgetClassequals引用本身是Primitive(原始数据类型) 引用是某块内存的别名,指针指向一块内存在java语言中,null可以强转为任意类型的对象,转换...
数据仓库介绍 Hadoop数据仓库实践第一章:1.什么是数据仓库数据仓库试图提供一种从操作系统到决策支持环境的数据流架构模型。为了解决和这个数据流相关的各种问题,主要是解决多重数据复制带来的高成本问题。2.数据仓库的定义Bill Immon 定义为 面向主题,集成的,随时间变化的,非易失的数据集合,用于支持管理者的决策过程。3.数据粒度粒度是指数据的细节或汇总程度。细节程度越高,粒度级别越低。...
反爬虫监控系统-实现思路 反爬虫监控系统思路:数据源nginx 获取客户端的请求 lua脚本收集nginx获取的请求的数据推送到kafka(ps:lua脚本在收集数据时采用’$CS#'进行拼接)数据处理模块:数据处理数据切分:获取kafka的数据,按照’#CS#'进行切分,并封装到AccessLog对象中(其中的jessionId和userId需要从http_cookie中单独提取出来)链路统计:1.计...
kafka集群监控-kafka-manager 1.安装1.下载2.修改 application.conf中的 3.运行 ./kafka-manager -Dconfig.file=…/conf/application.conf -Dhttp.port=8080 &4.创建连接
浅谈Streaming的窗口操作 Streaming的窗口操作[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vvPgeteO-1583414936482)(C:\Users\孙拾柒\AppData\Roaming\Typora\typora-user-images\1583414365744.png)]任何窗口操作需要两个参数:窗口长度:上图为3个时间单位滑动间隔:上图为2个时间单位窗...
SparkStreaming的学习(一) SparkStreaming1.DStream1.离散化流,与SPark的RDD相似,都是一种数据抽象。2.DStream是随时间推移而收到的数据的序列3.DStream是由多个RDD组成的序列2.架构(微批次)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DK7YgE5J-1583249126129)(C:\Users\孙拾柒\AppData\Roa...
推荐系统学习(一) 推荐系统的学习:分类:根据实时性:离线推荐实时推荐根据是否个性化分类:基于统计的推荐个性化推荐根据推荐原则分类:基于相似度的推荐基于知识的推荐/基于规则的推荐基于模型的推荐/基于机器的推荐根据数据源分类:基于人口统计学的推荐 基于用户的推荐 用户画像之类基于内容的推荐基于协同过滤的推荐/俗语:基于行为的推荐基于协同过滤的推荐算法:用户对电影的评分。根据用...
spark的广播变量 广播变量:频繁使用 而且数据大 分发到每一个excutor节点 每个task从本地拿取使用当在excutor端使用了Driver变量,不使用广播变量,在每个excutor中有多少的task就有多少个Driver端变量副本导致的问题:占用了网络IO,速度慢如果使用广播变量在每一个excutor端只有一份Driver端的变量副本注意:1).不能当RDD广播出去,可以将RDD的结果广播出去...
kafka常用命令 启动Kafka:/export/servers/zookeeper/bin/zkServer.sh startnohup /usr/local/kafka/bin/kafka-server-start.sh /usr/local/kafka/config/server.properties &停用Kafka:/usr/local/kafka/bin/kafka-server-st...
centos7进入紧急模式解决办法 问题描述:enter emergency mode查看日志:failed to mount /sysroot解决办法:命令: xfs_repair -v -L /dev/dm-0 reboot 完美解决
lua语言小知识点学习 关于lua语法的注意的点:. . 表示 字符连接符for循环遍历table有两种 ipairs(无状态)和 pairs(有状态) 个人理解的状态代表的就是key值有没有明确指定#可以获取字符串|table的长度。例 #“hello world”=11判断是由为nil为 x==“nil” 需要添加引号table的下标索引是从1开始的函数中支持匿名函数待更。。。...
kafka面试题总结 kafka面试题总结1.Kafka的特点:- 高吞吐量,低延迟 每秒可以处理几十万条数据 延迟级别在毫秒级 每个topic中可以分多个partition,consumer group对partiiton进行消费操作- 高并发 支持上千个客户端同时进行读写- 可扩展性强 - 容错性:允许集群中节点失败,若副本数为n,则允许n-1个节点失败- 持久性、可靠性:消息会持久到磁盘,并支...
redis集群常用命令 开启集群脚本cd redis01./bin/redis-server ./bin/redis.confcd …cd redis02./bin/redis-server ./bin/redis.confcd …cd redis03./bin/redis-server ./bin/redis.confcd …cd redis04./bin/redis-server ./bin/r...
maven打包插件 maven打包的插件下次使用就方便了<build> <plugins> <plugin> <!-- 程序打包 --> <groupId>org.apache.maven.plugins</groupId> ...
zookeeper一键启动基础版 #!/bin/bashzkServer.sh stopecho master stop!ssh slave1> /dev/null 2>&1 << eeooffzkServer.sh stopexiteeooffecho slave1 stop!ssh slave2> /dev/null 2>&1 << eeooff...
mybatis-generator <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE generatorConfiguration SYSTEM "http://mybatis.org/dtd/mybatis-generator-config_1_0.dtd" PUBLIC " -//mybatis.org//DTD MyBatis Generator Configu...
linux忘记密码解决方案 linux 忘记密码重置root管理员密码重启 Linux 系统主机并出现引导界面时,按下键盘上的 e 键进入内核编辑界面在 linux16 参数这行的最后面追加“rd.break”参数,然后按下 Ctrl + X 组合键来运行修 改过的内核程序大约30秒进入紧急求援模式依次输入以下命令,等待系统重启操作完毕,然后就可以使用新密码 linuxprobe 来登录 Linux 系统了...
Fabric网络部署问题 ERR:plugin with name escc wasn’t found在部署多机solo网络时,在进行链码实例化时报错:plugin with name escc wasn't found 是因为系统链码找不到,peer配置文件中出现了问题;下面将我的配置文件写下:# Copyright IBM Corp. All Rights Reserved.## SPDX-License...
VMware下共享文件夹问题 CentOS设置共享文件夹问题在linux中 /mnt/hgfs 下没有共享文件夹 或者 /mnt 下没有hgfs解决办法: 重新安装vmware-tools 先安装 gcc kernel-devel yum install gcc yum install kernel-devel 在 /bin下执行 ./vmware-config-to...
linux下Source /etc/profile不生效 在linux下开发时,我们会经常安装很多环境,因为环境多,我们需要将其配置成全局命令,这样才好操作,配置成全局命令时,有一种方式是比较常用的: vim /etc/profile 增加配置信息,然后source /etc/profile是之生效。的确当前终端环境下的确是生效了,但是打开新的终端会发现,怎么没有生效?是我配置没成功吗?不对呀,之前明明可以的。这个时候,你只需要执行下面操作即可:...
Fabri安装连码失败 Error Fabric多机部署,客户端安装链码时报错Error: error getting chaincode code mycc06: <go, [env]>: failed with error: “exec: not started” 原因1:安装chaincode不在支持在peer的container里面进行了,必须在CLI的container里面操作 原因2:g...
Fabric实战(四)-多机部署fabric网络-solo ####多机部署fabric(solo模式)本案例为: 一个orderer节点 两个peer节点 三台物理机: orderer:192.168.2.148 peer0org1:192.168.2.107 peer0org2:192.168.2.108 需要在每台物理机中配置 /etc/hosts 文件 将 ...
Fbric实战-运行E-2-E案例 下载平台特定的二进制文件一. HyperLedger Fabric 网络需要一些特定的二进制文件:cryptogen,configtxgen,configtxlator,peer,orderer,fabric-ca-client 方法一: curl -sSL https://goo.gl/6wtTNS | bash -s 1.0.0 该命令将会下载自动化部署脚本,以及特定二进制...
Fabric环境部署(二) Fabric及环境部署fabric源码安装 :需要将源码目录放置到 $GOPATH 路径下 cd $GOPATH git clone https://github.com/hyperledger/fabric.git(需要用到git命令,如需安装:yum install git)下载fabric镜像 (通过 docker pull 的方式下载)保证镜像与 Hype...
fabric基本环境部署(一) fabric基本环境部署内容简介环境介绍docker安装在线安装docker CEDocker 常用命令Docker-compose安装在线安装Docker-ComposeGO语言环境安装内容简介本次基本环境的搭建主要针对于第一次接触 fabric的新手,将fabric的基本环境安装好,以便接下来搭建fabric网络环境介绍本次宿主机的系统为 CentOS 7 ,内核版本为linux.3....