![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 91
孙拾柒
这个作者很懒,什么都没留下…
展开
-
flume学习日记
Flume优点:可以和任意存储进程集成。输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送。Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。一旦事务中所有的数据全部成功提交到ch...原创 2020-03-20 23:07:32 · 160 阅读 · 0 评论 -
spark的缓存级别介绍
Spark的cache、persist以及缓存级别讲解:当一个RDD被多次用到的时候。通过cache可以将RDD持久化到磁盘或者内存。cache属于transformationcache的底层调用了perist()cache和perist相同点:都是设置缓存不同点:cache底层调用了perist,但是cache只有一个默认的缓存级别=StorageLevel.MEMORY_ONLYp...原创 2020-03-19 23:35:49 · 1811 阅读 · 0 评论 -
hive时间函数
1.from_unixtime:转化unix时间戳为指定时间格式select from_unixtime(292929292929,’yyyyMMdd’);select from_unixtime(345345354355,’yyyy-MM-dd’);2.unix_timestamp:获取当前unix时间戳select unix_timestamp();输出:1430816254se...原创 2020-03-18 23:35:04 · 509 阅读 · 0 评论 -
GeoHash算法的学习
一、简介将二维的经度纬度转化成字符串字符串越长代表的精度越高 5位的编码能表示10平方千米,而6位的编码约0.34平方千米字符串的相似表示距离的远近。查询指定位置的附近的商店等,只需要将所在位置的经纬度转化为geohash字符串,并于各个商店的Geohash字符串进行前缀匹配,匹配越多的越接近二、算法步骤:地球纬度区间是[-90,90], 北海公园的纬度是39.928167,...原创 2020-03-16 23:11:26 · 355 阅读 · 0 评论 -
hdfs学习笔记
Hadoop总结一、hadoop概述1.谷歌的三篇论文:《bigtable》 《GFS》 《Mapreduce》2.hadoop是一个分布式存储和分析计算框架3.hadoop组成部分: 1)hadoop common 2)hdfs 3) mapreduce 4) yarn二、hdfs设计思想1.设计思想: 1)分块存储,默认是128MB 块的大小: 1.最小化寻址开销...原创 2020-03-14 23:09:21 · 294 阅读 · 0 评论 -
hive复习日记-持续更新
hive一、 概念1.hive是一个构建在hadoop上的数据仓库管理工具(框架),可以将结构化数据文件映射成一张数据表,并使用类sql的方式对这样的文件进行操作。 hive的执行引擎 可以是 mapreduce spark tez2.hive的元数据存储在数据库 hive的数据存储在HDFS上 hive的计算是基于mr的二、优缺点1.学习成本低: 提供类sql查询语言,避免直接写mr...原创 2020-03-13 22:59:57 · 236 阅读 · 0 评论 -
sparkcore和sparkSql学习
sparkcore:基本数据抽象是rddRDD:弹性分布式数据集 分布存储,分散在各个节点上,便于并行对RDD的数据进行并行计算特点: 1.RDD是只可读的,一旦生成,内容就无法修改 2.RDD可以指定缓存在内存中。一般计算都是流水式生成、使用RDD,新的RDD生成后,旧的RDD不再使用,并被java虚拟机回收掉。当后续有多个计算依赖于某个RDD时,可以让这个RDD缓存到内存中,避免重复...原创 2020-03-11 23:25:59 · 638 阅读 · 0 评论 -
大数据文件格式简单介绍
大数据文件格式:parquet(column)、 Avro(Row)、 ORC(column)相同点: 基于hadoop文件系统优化出的存储结构提供高效的压缩二进制存储格式文件可分割使用schema进行自我描述列式存储:跳过不符合条件的数据,只读取需要的数据,减少了IO...原创 2020-03-10 23:22:51 · 883 阅读 · 0 评论 -
数据仓库介绍
Hadoop数据仓库实践第一章:1.什么是数据仓库数据仓库试图提供一种从操作系统到决策支持环境的数据流架构模型。为了解决和这个数据流相关的各种问题,主要是解决多重数据复制带来的高成本问题。2.数据仓库的定义Bill Immon 定义为 面向主题,集成的,随时间变化的,非易失的数据集合,用于支持管理者的决策过程。3.数据粒度粒度是指数据的细节或汇总程度。细节程度越高,粒度级别越低。...原创 2020-03-08 22:25:59 · 548 阅读 · 0 评论 -
反爬虫监控系统-实现思路
反爬虫监控系统思路:数据源nginx 获取客户端的请求 lua脚本收集nginx获取的请求的数据推送到kafka(ps:lua脚本在收集数据时采用’$CS#'进行拼接)数据处理模块:数据处理数据切分:获取kafka的数据,按照’#CS#'进行切分,并封装到AccessLog对象中(其中的jessionId和userId需要从http_cookie中单独提取出来)链路统计:1.计...原创 2020-03-07 23:01:30 · 683 阅读 · 0 评论 -
kafka集群监控-kafka-manager
1.安装1.下载2.修改 application.conf中的 3.运行 ./kafka-manager -Dconfig.file=…/conf/application.conf -Dhttp.port=8080 &4.创建连接原创 2020-03-06 22:38:29 · 242 阅读 · 0 评论 -
浅谈Streaming的窗口操作
Streaming的窗口操作[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vvPgeteO-1583414936482)(C:\Users\孙拾柒\AppData\Roaming\Typora\typora-user-images\1583414365744.png)]任何窗口操作需要两个参数:窗口长度:上图为3个时间单位滑动间隔:上图为2个时间单位窗...原创 2020-03-05 21:33:06 · 355 阅读 · 0 评论 -
反爬虫项目-数据处理阶段流程图
原创 2020-03-04 23:26:07 · 617 阅读 · 0 评论 -
SparkStreaming的学习(一)
SparkStreaming1.DStream1.离散化流,与SPark的RDD相似,都是一种数据抽象。2.DStream是随时间推移而收到的数据的序列3.DStream是由多个RDD组成的序列2.架构(微批次)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DK7YgE5J-1583249126129)(C:\Users\孙拾柒\AppData\Roa...原创 2020-03-03 23:26:25 · 268 阅读 · 0 评论 -
spark的广播变量
广播变量:频繁使用 而且数据大 分发到每一个excutor节点 每个task从本地拿取使用当在excutor端使用了Driver变量,不使用广播变量,在每个excutor中有多少的task就有多少个Driver端变量副本导致的问题:占用了网络IO,速度慢如果使用广播变量在每一个excutor端只有一份Driver端的变量副本注意:1).不能当RDD广播出去,可以将RDD的结果广播出去...原创 2020-02-28 23:34:11 · 323 阅读 · 0 评论 -
kafka常用命令
启动Kafka:/export/servers/zookeeper/bin/zkServer.sh startnohup /usr/local/kafka/bin/kafka-server-start.sh /usr/local/kafka/config/server.properties &停用Kafka:/usr/local/kafka/bin/kafka-server-st...原创 2020-02-27 12:09:21 · 176 阅读 · 0 评论 -
kafka面试题总结
kafka面试题总结1.Kafka的特点:- 高吞吐量,低延迟 每秒可以处理几十万条数据 延迟级别在毫秒级 每个topic中可以分多个partition,consumer group对partiiton进行消费操作- 高并发 支持上千个客户端同时进行读写- 可扩展性强 - 容错性:允许集群中节点失败,若副本数为n,则允许n-1个节点失败- 持久性、可靠性:消息会持久到磁盘,并支...原创 2020-02-24 22:27:53 · 482 阅读 · 0 评论 -
redis集群常用命令
开启集群脚本cd redis01./bin/redis-server ./bin/redis.confcd …cd redis02./bin/redis-server ./bin/redis.confcd …cd redis03./bin/redis-server ./bin/redis.confcd …cd redis04./bin/redis-server ./bin/r...原创 2020-02-17 17:30:33 · 168 阅读 · 0 评论 -
maven打包插件
maven打包的插件下次使用就方便了<build> <plugins> <plugin> <!-- 程序打包 --> <groupId>org.apache.maven.plugins</groupId> ...原创 2020-01-17 16:42:26 · 188 阅读 · 1 评论 -
zookeeper一键启动基础版
#!/bin/bashzkServer.sh stopecho master stop!ssh slave1> /dev/null 2>&1 << eeooffzkServer.sh stopexiteeooffecho slave1 stop!ssh slave2> /dev/null 2>&1 << eeooff...原创 2019-11-25 20:18:47 · 103 阅读 · 0 评论