自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 Leetcode——shell

192. 统计词频难度中等写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。为了简单起见,你可以假设:words.txt只包括小写字母和 ' ' 。每个单词只由小写字母组成。单词间由一个或多个空格字符分隔。示例:假设 words.txt 内容如下:the day is sunny the thethe sunny is is你的脚本应当输出(以词频降序排列):the 4is 3sunny 2day 1说明:不要担心词频相同的单词的

2021-01-14 17:21:33 248

原创 计算机网络——网络体系结构

2020-12-31 14:40:42 218

原创 剑指Offer刷题——运算符

剑指刷题——运算符文章目录剑指刷题——运算符[剑指 Offer 15. 二进制中1的个数](https://leetcode-cn.com/problems/er-jin-zhi-zhong-1de-ge-shu-lcof/)[剑指 Offer 56 - I. 数组中数字出现的次数](https://leetcode-cn.com/problems/shu-zu-zhong-shu-zi-chu-xian-de-ci-shu-lcof/)[剑指 Offer 65. 不用加减乘除做加法](https://l

2020-11-20 18:08:23 212

原创 剑指Offer刷题——链表

剑指刷题——链表文章目录剑指刷题——链表[剑指 Offer 18. 删除链表的节点](https://leetcode-cn.com/problems/shan-chu-lian-biao-de-jie-dian-lcof/)[剑指 Offer 22. 链表中倒数第k个节点](https://leetcode-cn.com/problems/lian-biao-zhong-dao-shu-di-kge-jie-dian-lcof/)[剑指 Offer 24. 反转链表](https://leetcode-

2020-11-19 14:28:37 168

原创 剑指offer刷题——哈希表

剑指刷题——哈希表剑指 Offer 03. 数组中重复的数字难度简单找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例 1:输入:[2, 3, 1, 0, 2, 5, 3]输出:2 或 3 限制:2 <= n <= 100000//数组本身做哈希//时间复杂度:O(n) 空间复杂度:O(1)class So

2020-11-18 15:52:52 120

原创 剑指offer刷题——数组和字符串

文章目录[剑指 Offer 03. 数组中重复的数字](https://leetcode-cn.com/problems/shu-zu-zhong-zhong-fu-de-shu-zi-lcof/)剑指 Offer 03. 数组中重复的数字难度简单201收藏分享切换为英文接收动态反馈找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。示例 1:

2020-10-26 16:54:00 311

原创 LeetCode-数据库题(三) ( 至1709)

文章目录[1571. 仓库经理](https://leetcode-cn.com/problems/warehouse-manager/)[1581. 进店却未进行过交易的客户](https://leetcode-cn.com/problems/customer-who-visited-but-did-not-make-any-transactions/)[1587. Bank Account Summary II](https://leetcode-cn.com/problems/bank-account

2020-10-10 17:24:26 1601

原创 电商数仓ods+dwd+dws+dwt+ads

文章目录环境准备业务数据日志数据sparkJDKhive错误数仓搭建-ODS层ODS层(用户行为数据)建表装载脚本单引号 双引号 飘号ODS层(业务数据)导入脚本DWD层用户行为日志get_json_object函数使用页面埋点日志启动日志页面日志动作日志UDTF曝光日志错误日志udf知识补充UDF业务数据维度表商品维度表(全量表)优惠券信息表(全量)活动维度表(全量)地区维度表(特殊)时间维度表(特殊)事实表订单明细事实表(事务型事实表)支付事实表(事务型事实表)退款事实表(事务型事实表)评价事实表(事务

2020-09-22 23:51:31 4130

原创 LeetCode-数据库题(二) (52-125题 到1565)

文章目录[1075. 项目员工 I](https://leetcode-cn.com/problems/project-employees-i/)[1076. 项目员工II](https://leetcode-cn.com/problems/project-employees-ii/)[1077. 项目员工 III](https://leetcode-cn.com/problems/project-employees-iii/)[1082. 销售分析 I ](https://leetcode-cn.com/

2020-08-30 20:24:22 5556

原创 LeetCode-数据库题(一) (1-51题 到1070)

https://leetcode-cn.com/problemset/database/题目都是leetcode 上了可以点击题目会有相应的链接由于个人比较喜欢用开窗函数,所以都优先用了开窗 ,当然这些并不一定都是最优解,答案仅供参考每道题后面都应相应的难度等级,如果没时间做的话 可以在leetcode 按出题频率刷题我是顺序刷的题,后续还会继续更新祝大家面试取得好的成绩文章目录[175. 组合两个表](https://leetcode-cn.com/problems/combine-two.

2020-08-30 20:17:47 1684 1

原创 idea中maven项目plugins出现红线错误的解决办法

Maven经常会出现这种红波浪线的问题大多数原因是没下载完所以前往你本地Maven仓库地址如果忘记的话 可以点在idea里查看去报红的路径删除掉就好了基本上都是 以.lastUpdated结尾的文件删除后 在idea里重新刷新就好啦当然也可以写脚本Mac脚本记得更换为你自己的Maven仓库地址#!/bin/bashif [ "$1" == "check" ]then# 填写maven仓库地址find /Users/vanas/LocalRepository/ -name "*

2020-07-25 00:31:34 780

原创 Spark核心 源码解析

文章目录核心1.Spark应用提交2.Spark内部组件及通信源码解析SparkSubmitApplicationMasterCoarseGrainedExecutorBackend通信3.Spark作业的提交(调度)4.任务的执行Shuffle核心所谓的内核,其实就是Spark的内部核心原理。1.Spark应用提交(1) Spark向Yarn提交(1) Spark向Yarn提交当使用bin/java执行java程序时,会产生JVM,java的进程(2) ApplicationMast

2020-07-21 08:56:40 668

原创 Spark Streaming 笔记

文章目录StreamingwordcountsocketTextStreamDStream创建queueStreamtextFileStream自定义数据采集器kafkaDStream转换transformupdateStateByKeyWindowOperationsreduceByKeyAndWindowDStream输出优雅的关闭getActiveOrCreate案例一:广告黑名summer.properties生成模拟数据:TApplicationEnvUtilTDaoMockDataApplica

2020-07-07 09:06:38 233

原创 SparkSql笔记

文章目录3种结构的关系自定义函数UDAF-弱类型UDAF-强类型SparkSQL通用的读取SparkSQL通用的保存CSVMySQL读数据写数据Hive本地hive操作hive外连接案例:造表 导入数据需求:各区域热门商品 Top33种结构的关系package com.vanas.bigdata.spark.sqlimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql

2020-07-02 14:28:39 227

原创 HBase API+优化+Phenix+索引 笔记

文章目录APIDDLDMLHBase优化预分区1.手动设定预分区2.指明分区个数3.按照文件中设置的规则预分区4.使用javaApi创建预分区rowKey的设计小案例:内存优化基础优化HBase底层原理HBase与Hive集成使用Phoenix安装配置配置环境变量启动Shell操作删除表映射:视图映射创建视图删除视图表映射Phoenix数字问题idea可视化Phoenix JDBC操作Thin 瘦客户端Thick胖客户端索引参数配置全局二级索引本地二级索引API创建表 、删除表、表是否存在、添加依赖

2020-06-28 17:22:06 413

原创 Spark Core笔记

文章目录Spark环境wordcount本地Standalone修改配置文件 关联日志 HA配置历史服务器yarnmac本地模式Spark架构RDDRDD的核心属性RDD创建从集合(内存)中创建RDD从外部存储(文件)创建RDDRDD并行度与分区File的分区RDD转换算子单value型mapmapPartitionsmapPartitionsWithIndexflatmapglomgroupByfiltersampledistinctcoalescerepartitionsortBypipe双Value类

2020-06-28 14:02:43 497

原创 HBase命令行客户端+架构 笔记

文章目录数据类型安装集群配置文件配置环境变量HBase远程发送到其他集群启动查看HBase页面命令行客户端DDL建表查看表详情修改列族删除表DMLputscanget删除清空表命名空间操作查看底层数据查看删除的版本信息删除策略(3种)查看hbase:metaRegionServer架构写流程MemStore Flush刷写时机手动flush读流程StoreFile CompactionRegion SplitRegion Split时机数据类型传统:数据库->表->行->hbase:

2020-06-28 13:49:54 518

原创 Scala模式匹配+异常+隐式转换+泛型+正则 笔记

文章目录模式匹配匹配列表匹配元组匹配对象—样例类模式匹配应用偏函数异常隐式转换隐式参数 隐式变量隐式类隐式转换的查找规则泛型正则表达式分布式案例DriverExcutorMessageResourceCenterTask模式匹配package com.vanas.bigdata.java.chapter08;import sun.java2d.pipe.SpanIterator;/** * @author Vanas * @create 2020-05-30 9:05 上午 */publ

2020-06-21 18:29:31 292

原创 Scala 集合篇笔记(三)

文章目录集合数组不可变数组可变数组foreach & 数组的操作Seq序列Nil可变Seq 增删改Set 数据集可变集合Map 映射可变Map遍历元组Tuple集合常用方法数据操作相关案例wordcountScala的练习作业:自定义排序交差合集 拉链 滑动计算相关简化规约reduce折叠fold扫描scan队列并行练习集合Scala都同时提供了可变和不可变的版本scala.collection.immutablescala.collection.mutable数组不可变数组pac

2020-06-07 22:33:15 268

原创 Scala 函数篇笔记(二)

文章目录基础篇基本语法函数和方法的关系声明方式参数个数噩梦篇至简原则地狱篇(重要)函数可以作为对象赋值给变量函数可以作为参数传递给其他函数练习:小问题函数作为返回值使用闭包Q&A闭包小实例柯里化控制抽象递归惰性函数案例应用Socket 与序列化基础篇基本语法package com.vanas.bigdata.chapter05/** * @author Vanas * @create 2020-05-20 11:09 上午 */object Scala01_Function {

2020-05-23 18:34:00 281

原创 scala基础篇笔记 (一)

文章目录编译与反编译注释变量Java静态代码块语法变量初始化变量连续赋值问题标识符StringJava—Scala输入输出web数据类型AnyValAnyRefNull自动转换与强制转换字符串运算符==和equals的区别赋值运算符++,--逻辑运算符位运算符运算符本质流程控制if -elsescala都有返回值三元运算循环控制循环嵌套yieldwhile循环循环中断scala(scalable language)更灵活 ,大数据更关注变化跨平台、垃圾回收 ——基于javajava=> piz

2020-05-22 22:11:32 608

原创 项目:数据采集 概念架构

文章目录数据仓库概念项目需求及架构设计项目需求分析项目框架技术选型系统数据流程设计框架版本选型服务器选型服务器选型集群资源规划设计数据生成模块目标数据页面事件曝光启动错误数据埋点主流埋点方式(了解)埋点数据日志结构数据仓库概念对数据存储 管理 给bi提供支持bi 从数据中挖掘数据的价值 指导企业做决策数仓给后续提供支持 可视化自己写加密项目或使用第三方可视化框架项目需求及架构设计项目需求分析维度建模一定要掌握数据分析师会做即席查询 sql不固定元数据 血缘关系 insert项目框

2020-05-15 22:44:07 1405

原创 项目:数仓采集(一)配置集群JDK+hadoop+zookeeper+kafka+Flume

文章目录准备服务器设置hostsudo权限编写群发脚本xsync远程访问免密JDK采集日志编写脚本(为了方便)集群所有进程查看脚本Hadoop集群基础配置(重要)core-site.xmlhdfs-site.xmlyarn-site.xmlmapred.site.xmlworkers/slaves配置配置历史服务器日志聚集功能关于集群时间同步关于2nn页面不显示问题**阿里云安全组**Hadoop项目经验HDFS存储多目录集群数据均衡LZO配置基准测试Hadoop参数调优Zookeeper安装与初始化配置K

2020-05-15 22:37:48 775

原创 项目:数仓采集(三)(业务数据采集模块Mysql+sqoop+hive 总结)

文章目录MysqlMySQL安装安装包准备安装MySQL配置MySQL业务数据生成连接MySQL生成业务数据sqoopsqoop使用场景Sqoop安装Mysql-hdfs 传输应用同步策略(mysql—数据仓库 导数据)全量同步策略增量同步策略新增及变化策略特殊策略业务数据导入HDFS分析表同步策略脚本编写项目经验HiveHive安装部署Hive元数据配置到MySQL启动Hive初始化元数据库启动hive客户端MysqlMySQL安装安装包准备卸载自带的Mysql-libsrpm -qa | g

2020-05-15 21:10:42 1961

原创 项目:数据采集(二) 表关系

文章目录电商业务简介电商业务流程电商常识(SKU、SPU)电商业务表结构订单表(order_info)订单详情表(order_detail)SKU商品表(sku_info)用户表(user_info)商品一级分类表 base_category1商品二级分类表 base_category2商品三级分类表 base_category3支付流水表 payment_info省份表 base_province地区表 base_region品牌表 base_trademark订单状态表 order_status_log

2020-05-15 20:25:26 2138

原创 flume 开发案例+自定义

文章目录复制和多路复用负载均衡和故障转移聚合截屏2020-05-04下午6.41.04习题自定义Interceptor自定义Source自定义Sink复制和多路复用cd job mkdir g1mkdir -p /opt/module/data/flume3A1# Name the components on this agenta1.sources = r1a1.sinks ...

2020-05-05 21:47:58 319

原创 Hive 3道面试题练习(包含详细解题过程)

1.我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218u022017/1/236u012017/2/224要求使用...

2020-05-02 21:30:08 636

原创 Hive 3.1.2 经典50题练习(答案都是自己写的欢迎 大佬提出优化!谢谢!)

Hive SQL50道练习题建表create table student(s_id string,s_name string,s_birth string,s_sex string) row format delimited fields terminated by ‘\t’;create table course(c_id string,c_name string,t_id string)...

2020-05-02 21:25:01 1691

原创 hadoop面试题

文章目录hadoop面试题入门1.简要描述如何配置apache的一个开源Hadoop?2.Hadoop中需哪些需要配置文件,作用是?3.请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,他们的作用?4.简述Hadoop的几个默认端口及其含义HDFS1.HDFS的存储机制(读写流程)?2.SecondaryNameNode工作机制?3.NN与2NN区别?4.服役新节点和退役旧节点...

2020-04-23 22:45:17 518

原创 Hadoop 3.1.3 本地、伪分布、完全分布环境搭建 学习笔记

文章目录Hadoop大数据特点(4V)hadoop的优势一、Hadoop组成(重点)ModulesHDFS架构YARN架构MapReduce架构大数据生态体系二、Hadoop运行环境搭建(开发重点)虚拟机环境准备安装JDK安装Hadoop伪分布式启动HDFS启动YARN并运行MapReduce程序常用端口号完全分布式编写集群分发脚本xsync完全分布式集群规划: (按照3个副本来说)单节点启动集群...

2020-04-22 22:14:22 1706

原创 Hadoop HA 学习笔记

文章目录HAHadoop HA高可用HA概述HDFS-HA工作机制HDFS-HA手动故障转移工作要点配置HDFS-HA集群配置HDFS-HA自动故障转移工作要点HDFS-HA故障转移机制规划集群配置Zookeeper集群配置HDFS-HA自动故障转移YARN-HA配置YARN-HA工作机制配置YARN-HA集群规划集群具体配置HDFS Federation架构设计NameNode架构的局限性HDF...

2020-04-22 21:56:14 251

原创 Zookeeper 3.5.7 学习笔记

文章目录ZookeeperZookeeper入门概述特点数据结构应用场景Zookeeper安装本地模式安装部署配置参数解读Zookeeper的四字命令[了解]Zookeeper内部原理节点类型Stat结构体监听器原理(面试重点)Paxos算法(扩展)选举机制(面试重点)写数据流程Zookeeper实战(开发重点)分布式安装部署群起客户端命令行操作API应用悲观锁 和 乐观锁:监听服务器节点动态上下...

2020-04-22 20:00:57 1247

原创 Hadoop 3.1.3 (MapReduce)

文章目录Hadoop(MapReduce)MapReduce概述MapReduce优缺点MapReduce核心思想MapReduce进程官方WordCount源码常用数据序列化类型MapReduce编程规范WordCount案例实操本地测试集群上测试在Mac上向集群提交任务Hadoop序列化序列化概述自定义bean对象实现序列化接口(Writable)序列化案例实操需求编写MapReduce程序M...

2020-04-20 10:34:16 1597 1

原创 Hadoop 3.1.3(HDFS)

文章目录HDFS概述HDFS优缺点HDFS组成架构截屏2020-04-11下午3.20.13HDFS文件块大小(面试重点)HDFS的Shell操作(开发重点)HDFS客户端操作(开发重点)HDFS的数据流(面试重点)文件写入网络拓扑-节点距离计算机架感知(副本存储节点选择)HDFS读数据流程NameNode和SecondaryNameNode(面试开发重点)NN和2NN工作机制Fsimage和Ed...

2020-04-16 23:00:40 904

原创 Hadoop3.1.3 完全分布式集群搭建

完全分布式克隆三台虚拟机 完成环境准备查看https://blog.csdn.net/VanasWang/article/details/105395279sudo mkdir /opt/module /opt/softwaresudo chown -R vanas:vanas /opt/module /opt/softwarescp(secure copy)安全拷贝rs...

2020-04-11 13:30:55 1865

原创 Hadoop 伪分布式运行模式

伪分布式启动HDFS(1)配置集群[vanas@hadoop132 ~]$ cd /opt/[vanas@hadoop132 opt]$ cd module/hadoop-3.1.3/etc/hadoop/[vanas@hadoop132 hadoop]$ vim hadoop-env.shexport JAVA_HOME=/opt/module/jdk1.8.0_212[vana...

2020-04-10 20:51:13 225

原创 Hadoop运行环境搭建

虚拟机环境准备根据前两篇 设置 然后继续虚拟机环境前面已经提到过https://blog.csdn.net/VanasWang/article/details/1052776911)虚拟机配置要求如下:单台虚拟机:内存4G,硬盘50G,安装必要环境(最小化安装)补充安装各种指令、sudo yum install -y epel-releasesudo yum install -y...

2020-04-08 19:45:06 332 1

原创 Linux 配置Mysql数据库(持续更新)

我使用的是VM 安装的 Linux CentOS 7因为CentOS7 本身带的数据库是mati。需要用到Mysql 需要重新配置下使用的远程连接工具是 FinalShell先进入 opt中创建 个文件目录 software[root@hadoop129 ~]# cd /home[root@hadoop129 home]# cd /opt[root@hadoop129 opt]# m...

2020-04-03 13:08:00 202

原创 VM Linux CentOS 7最小化安装(根据学习阶段持续更新)

安装ifconfigyum install -y net-toolsyum -y install vimyum -y install gityum -y install lrzszyum install -y wget关闭防火墙关闭防火墙,一般情况下不会关,但是因为学习需要就关了。[root@hadoop131 ~]# systemctl status firewalld[r...

2020-04-03 13:07:04 292

原创 Mac 设置hosts文件

由于权限问题所以需要使用 sudo 使用超级特权sudo -s vim /etc/hosts输入 e 进入vim编译格式E然后 按 i 进入编辑模式编译后 按 Esc键退出编辑模式再:wq保存退出即可直接更改系统的文件存在着风险推荐大家使用SwitchHosts!软件来管理hosts内容避免不小心删改了原系统文件导致出现安全隐患...

2020-04-01 22:01:44 264

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除