- 博客(532)
- 资源 (14)
- 问答 (1)
- 收藏
- 关注
原创 Markdown帮助文档
一、Markdown表格-换行、合并单元格1、表格中对其、换行处理1.1 一般我们都会这样用表格如下:|排名|姓名||--|--||第一名|隔壁老王||第二名|隔壁小王、隔壁小小王|实现效果图:排名姓名第一名隔壁老王第二名隔壁小王、隔壁小小王1.2 当然这里也可以通过设置|:–|左对齐,|–:|右对齐比如下面的左对齐:|排名|姓名||:-...
2019-07-08 15:47:09 1442 1
原创 我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架
致 青 春 赶在儿子1岁生日之际,赶在我30岁告别之际,我撰写《Hadoop+Spark生态系统操作与实战指南》一书,作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一页,我借【此书】记录下我的青春,我借【清华大学出版社】将我青春永远留在【清华大学】。 我的新书《Hadoop+Spark生态系统操作与实战指南》,清华大学出版社,已经在京东、天猫、当当
2017-08-07 20:22:59 8109 28
原创 Spark深入解读(十二)---- 有向无环图DAG(代码及图解)
目录:1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果1、有向无环图在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。 性质:有向无环图的生成树个数等于入度非零的节点的入度积。 2、代码结构
2017-01-03 18:21:54 22339 1
原创 Ubuntu 20.04安装gitlab
一、Ubuntu系统平台查看二、Ubuntu系统软件源更新三、Ubuntu系统安装依赖四、Ubuntu系统下载安装包五、Ubuntu系统安装gitlab六、Ubuntu系统系统配置七、gitlab重新启动系统ERROR01ERROR02
2023-05-09 09:51:11 256
原创 数据团队总监生存指南
新晋总监生存指南开篇之总监二三事新晋总监生存指南二——建立指标新晋总监生存指南三——OKR实践新晋总监生存指南四——项目执行指南新晋总监生存指南五——人才运营机制新晋总监生存指南终章——构建团队信息通道...
2022-08-22 10:13:38 290
原创 案例--检验表达式中的括号是否成对出现
/** * 检验表达式中的括号是否成对出现 */ def isMatch(rules: String): Boolean = { // 括号中文转英文字符 val str = rules.replaceAll("(", "(").replaceAll(")", ")") // 设置栈存储容器 val brackets = new util.HashMap[Character, Character] // key值为:')' ,value值...
2022-01-17 17:33:43 404
原创 SQL行转列、列转行
目录一、整理测试数据SQL行转列、列转行这个主题还是比较常见的,行转列主要适用于对数据作聚合统计,如统计某类目的商品在某个时间区间的销售情况。列转行问题同样也很常见。一、整理测试数据create table wyc_test( id int(32) not null auto_increment, name varchar(80) default null, date date d...
2021-07-27 19:52:39 412
原创 程序员必知的几种软件架构模式
程序员必知的几种软件架构模式前序分层架构模式多层模式管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构(MVC)事件驱动架构微服务架构前序架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。一种模式就是特定上下文的问题的一种解决方案。然而,很多开发者至今还对各种软件架构模式之间的差别搞不清,甚至对其所知甚少。大体上,主要有下面这几种架构模式:分层架构管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构事
2020-10-27 14:11:45 4497 6
原创 程序员正确看代码的方式
正确的学习方法不仅能够让你事半功倍,也能够让你更加接近真理。初学一个工程的源代码,往往让初学者手足无措。下面的方法希望为初学者带来启示和便利。这个学习方式是基于编译环境和语言比较熟悉的基础上。最重要的是你要确定你要阅读的源代码是一份好代码。因为阅读代码就像阅读书籍。好代码让你终生受益,坏代码会给你留下阴影。 一.先把源代码安装起来编译起来,结合它的文档和手册,熟悉其功能和它的应用方式。如果遇到的是英文
2020-09-25 23:57:56 14247 3
原创 Druid的端口-接口-日志大全
在介绍之前,先列一下Druid各部分的端口号(在代码Main.java中):角色端口Coordinator8081Historical8083Broker8082Realtime8084Overlord8090MiddleManager8091Router8888下面是管理命令:查询某个Meta Datasource下所有的segments:GET http://<coordinator>:8081/druid
2020-09-23 11:16:49 3309
原创 Presto的坑记录
问题1 Java版本:Unrecognized VM option 'ExitOnOutOfMemoryError'Did you mean 'OnOutOfMemoryError=<value>'?Error: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit.回答:Presto requires Java 8 Update 151
2020-09-15 15:33:10 4690 1
转载 如何搭建AI数据中台?
AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的。什么是AI数据中台? 在以往,企业数据管理都以传统的IT架构为基础。当技术部门为业务部门解决问题时,需要从业务需求的探查、技术壁垒的打通等从上到下各个方面来建设新系统。每个系统的建成都自成一体,也就是
2020-09-12 15:57:56 2386 1
原创 CDH--HDFS和Yarn存储不足
备注:最近公司CDH集群中的某个DataNode存储一直报警,分析如下:1)一个集群有多个DataNode2)一个DataNode的数据会存储在多个路径。eg: /data1,/data2,/data3等等3)/data3 路径下面除了【/data3/dfs/dn】和 【/data3/yarn/nm】路径还会有其余文件,导致路径文件过大,同时CDH的 balancer 的平衡机制无法平衡4)解决方法:清除路径多余文件,或者在CDH中的DataNode移除对应路径5)无论DataNode还是y
2020-08-18 16:06:58 868
原创 JVM虚拟机
1.垃圾回收算法分类算法一:引用计数法。 这个方法是最经典点的一种方法。具体是对于对象设置一个引用计数器,每增加一个变 量对它的引用,引用计数器就会加 1,没减少一个变量的引用,引用计数器就会减 1,只有当对象的引用计数器变成 0 时,该对象才会被回收。可见这个算法很简单,但是简单往往会存在很多问题,这里我列举最明显的两个问题。 一是采用这种方法后,每次在增加变量引用和减少引用时都要进行加法或减法操
2020-08-07 19:35:01 404
原创 大数据工程师的日常工作内容
1 写 SQL(很多入职一两年的大数据工程师主要的工作就是写 SQL )2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)5 应用迁移(有
2020-08-07 14:17:57 2359 2
转载 大数据优化方案----Spark数据倾斜
1. 什么是数据倾斜 数据倾斜是一种很常见的问题(依据二八定律),简单来说,比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果:1)OOM(单或少数的节点);2)拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。2. 解决数据倾斜需要1)搞定 Shuffle;2)搞定业务场景;3)搞定 CPU core 的使用情况;(这里的core是虚拟的core而不是机器的物理CPU核,可以理解为就是
2020-08-07 11:27:45 587
原创 大数据面试题(五)----HIVE的调优及数据倾斜
一、 hive表的优化1)小表、大表 Join 将 key 相对分散,并且数据量小的表放在 join 的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用 Group 让小的维度表(1000 条以下的记录条数)先进内存。在 map 端完成 reduce。实际测试发现:新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有明显区别。案例实操 &n
2020-08-07 10:32:16 675
原创 数据挖掘考试题库
目录一、名词解释二、综合题一、名词解释数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。粒度:指数据仓库的数据单位中保存数据细化或综合
2020-07-20 10:28:36 2341
原创 tez 安装教程
环境版本CDH5.16.2 hadoop 2.7.0-cdh5.16.2安装前期准备1、This assumes that you have already installed JDK8 or later and Maven 3 or later.2、Tez also requires Protocol Buffers 2.5.0, including the protoc-compiler. This can be downloaded from https://github.com/google
2020-06-02 11:40:30 907
原创 Hive教程(十一)---整合HBASE
目录6.4.1 HBase与Hive的对比6.4.2 HBase与Hive集成使用6.4.1 HBase与Hive的对比Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。HBase(1)
2020-05-15 23:32:45 394
原创 Hive教程(十)---JDBC的连接
目录10.1 创建maven项目添加依赖10.2 JAVAAPI10.1 创建maven项目添加依赖Jdbc是jdk开发的操作数据库的一套标准API(接口方法)Java提供的一套操作数据库的标准API<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId>
2020-05-15 23:28:26 431
原创 Hive教程(八)---压缩和存储
目录8.1 Hadoop源码编译支持Snappy压缩8.2 Hadoop压缩配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 文件存储格式8.6 存储和压缩结合8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题jar包准备(hadoop源码、JDK8 、maven、proto
2020-05-15 23:18:15 370 1
原创 Mysql案例(二)---列转行
列转行SELECT GROUP_CONCAT(shop_name),product_idfrom shopproduct GROUP BY product_id;
2020-05-14 13:04:17 476
原创 Hive教程(九)---企业级调优
目录前述9.1 Fetch抓取9.2 本地模式9.3 表的优化9.4 数据倾斜9.5 并行执行9.6 严格模式9.7 JVM重用9.8 推测执行9.9 压缩9.10 执行计划(Explain) (搜索)前述查询速度 效率分区 分桶表特殊的文件格式 列式存储的文件类型查询时候指定字段join的时候使用on 避免笛卡尔积hive底层mr , inert into valuesreduce阶段 数据倾斜 添加reduce的个数设置maptask处理数据的大小 ,
2020-05-13 22:27:54 429
原创 Hive教程(七)---函数
目录7.1系统内置函数7.2 自定义函数7.3 自定义UDF函数7.4 json解析函数:表生成函数7.1系统内置函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数 1)Hive 自带了一些函数,比
2020-05-12 23:10:53 392
原创 Hive教程(十四)---hive常用命令备份
insert overwrite directory ‘/user/yuhui/table12’ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’select
2020-05-12 10:00:28 449
Mysql教程所有数据.zip
2020-05-05
crawlerBank.py
2019-07-08
SpringBoot的mvc三层以及增删改查页面
2018-11-22
spring boot+mybatis整合
2018-11-12
Lucene实战(第2版).pdf
2018-08-28
SparkSql技术
2018-08-16
hadoop-Apache2.7.3+Spark2.0集群搭建
2018-08-16
stable-diffusion-webui启动报错
2024-05-13
微博对一条微博进行评论API
2023-05-17
调用JEECG微博发帖API异常
2023-05-17
mac版本idea中路径颜色设置
2020-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人