- 博客(281)
- 资源 (11)
- 收藏
- 关注
原创 zookeeper -- 大数据面试
第一章 zookeeper入门zookeeper是一个开源的分布式,为分布式应用提供协调服务的apache项目,zookeepr的工作机制zookee
2021-06-13 00:54:05 352
原创 数据分析--大数据面试
1、事件分析可进行筛选、分组、聚合的灵活多维数据分析2、漏斗分析分析多步骤行为之间转化与流失情况3、留存分析分析用户参与情况和活跃程度4、分布分析分析用户行为在一段时间内的频次和指标分布5、LTV分析分析用户在特定时间段内的生命周期价值6、用户路径用户用户行为行为的流向变化7、网页热力分析分析元素的点击的分布占比与用户浏览深度8、间隔分析分析用户在两个事件之间的间隔时长9、自定义查询支持对全量数进行sql查询、结果可视化10、归因分析
2021-06-03 23:27:15 170 1
原创 hadoop 1000台集群优化经验---大数据面试
hdfs 是一个分布式系统,只要有足够的资源,可以扩容到上千台的集群,name node rpc queue time在持续的一周左右时间性能恶化。在极端环境下,出现一个rpc查询需要等待好几分钟。l
2021-05-31 12:19:30 384
原创 flink为会什么成为下一代数据处理框架--大数据面试
相对于传统的数据处理模式。流式数据处理则有更高的处理效率和成本控制。apache flink 就是近年来在开源社区发展不断发展能够支持同时支持高吞吐,低延迟,高性能分布式处理框架。
2021-05-31 00:18:14 773 10
原创 data lake -- 大数据面试
数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发,维护成本,细节数据丢失等问题出现的。数据湖大多是相对于传统的rdbms的数据仓库,而从2011年
2021-05-30 23:13:08 562
原创 基础架构---大数据面试
1、架构演进离线数据仓库到实时仓库,从lambda架构到kappa架构,再到混合架构。2、逻辑分层数仓分层,一般按ods->dw->dm整体架构。不同的企业,不同的业务场景,有衍生出不同的分层架构模式。例如经典四层架构:ods->dwd->dws-ads,bdl->fdl->gdl->adl等。技术选型,传统数仓一般以Oracle、greenplum、teradata 等,互联网数仓一般以Hadoop生态圈为主,离线以Hive为核心,准实时以spar
2021-05-30 22:17:11 508
原创 数据分层方法--大数据面试
一、概述数据分层是数据仓库设计中十分重要的一个环节,优秀的分层设计能够让整个数据体系更易理解和使用。二、数据分层作为一名数据的规划者,我们肯定希望自已的数据能够有秩序地流转,数据的整个生命周期能够清晰明确被设计者和使用者感知到,直接来说就是如下的左图这般层次清晰、依赖关系直观。因些我们需要一套行之有效的数据组织和管理方法来让我们数据体系更有序,这就是谈到的数据分层,数据分层并不能解决所有数据问题,但是数据分层可以给我们带下如下好处:1、清晰数据结构:每一个数据分层都有它的作用域和职责,在使用
2021-05-30 21:54:23 663
原创 rm删除后df磁盘空间及mysql 规范
rm删除文件后,df -h 磁盘空间不释放原因:一般说不会出删除文件后空间不释放情况,但是也存在例外,比如文件被进程锁定,或者进程一直向文件写数据:即
2021-05-30 20:59:33 296
原创 数据倾斜--大数据面试
1、什么是数据倾斜我们在用hive的时候,有时候跑一个简单的join语句,但是却跑了长时间,有的时候我们会觉得集群资源不够导致的,但是很大情况下就是出现了数据倾斜的情况。
2021-05-30 20:45:28 351
原创 kafka管理工具--大数据面试
1、kafka内部提供了许多管理脚本,这些脚本都放$kafka_home/bin目录下,企业生产中,我们可以通过bin/kaka-topics.sh bin/kafak-consumber-group
2021-05-30 16:24:30 190
原创 设计模式
设计模式: 设计模式相关内容介绍 创建者模式 结构型模式 行为型模式 综合练习 1、设计模式概述 软件设计模式产生背景 软件设计模式概述 学习设计模式的必要性 设计模式的分类 创建型模式: 用于描述怎么创建对象,它的主要特点是将对象的创建与使用分离,gof书中提供了单例,原型,工厂方法,抽象工厂,建造者等5种创建型模式。 结构型模式: ...
2021-05-19 16:17:53 172
原创 hadoop平台编译安装
https://support.huaweicloud.com/prtg-hdp-kunpengbds/kunpenghadoophdp_02_0021.html
2021-05-13 20:10:12 178
原创 kettle基本概念
本章主要讲述kettle的基本概念,我们需要了解kettle工具本身的一些设计原则,以及kettle里的不同功能模块。首先讲述如何通过转换,以数据行的形式来处理数据,然后解释如何使用作业以工作流形式将转换连接起来。本章要讲述如下的kettle概念:数据库连接工具和常用程序资源库虚拟文件系统参数和变理可视化编程设计原则kettle工具在设计初始就考虑一些设计原则,这些原则也借鉴了以前使用过的其他一些etl工具积累下的经验和教训。先总结一下以前的经验,看我们能从中获得哪些有益
2021-04-18 17:16:01 2178
原创 ETL分析
本章的内容是数据整合工作的起点,本章将详细解释3种主要的数据整合方式不同点和相似点。这3种数据的整合方式分别是etl,elt和eii。为了能够全面理解数据仓库和数据整合,我们先来看看事务数据库系统和分析型系统不同不处。1.1 OLTP和数据仓库对比人们通常的第一个问题是事务系统和商业智能系统的区别,商业智能系统通常也被称为决策支持系统dss,一个独立的事务系统通常也被称为在线事务处理系统事务系统需要能哆快速地定位到一条记录。当一次需要获取多条记录,多条记录通常使用唯一的健值加以识别。例如订单系..
2021-04-17 00:26:30 2731
原创 先排序再统计
今年写的最牛的sql:select count(*),bb.item from (select aa.aac002 ,array_to_string(ARRAY( SELECT unnest(array_agg(aa.aae140))),',') item from (select aac002,aae140from rsxy_qt_zrrsbjn where aae003 = '202012' group by aac002,aae140 order...
2021-03-10 20:01:55 226
原创 hadoop面试题
1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴2、大数据的起源是(C)。(单选题,本题2分)A:金融B:电信C:互联网D:公共管理3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师4、(D)反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分)A:规模B:活性C:关联度D:颗粒度5、数据清洗...
2021-03-07 22:45:58 3423
原创 数据可视化
数据可视化前言echarts的基本使用echarts的高级使用电商平台数据可视化实时监控系统后台搭建结合vue开发图表组件websocket实现数据可视化主题切换、页面合并、全屏切换知识储备 html css js echarts的使用 vue , vuex , router , webpackwebsocker的使用一、课程简介数据可视化前言:数据可视化概念项目演示: 该项目为电商平台数据可视化实时监控系统...
2021-02-06 08:16:17 476
原创 机器学习中的数学--第1章向量和它的朋友们
向量是指具有大小和方向的量,在物理学中,通常将向量称作矢量。其实我们在初中就接触过向量。表示每种力的带箭头的线段就是向量,箭头的方向表示向量的方向。线段的长度表示向量的大小。相应地,没有方向的量,称为标量。1.1向量家庭的基本成员关于向量有许多概念。1.1向量的表示和模长在数学中,向量仍然可以用带箭头的线段来表示,如图1.2所示是一个在平面的直角坐标系中的向量。注:向量未必是直的,也存在曲线的向量。一般地,向量符号在印刷体中用粗体字母表示。a b V PQ手写体...
2021-02-04 22:44:35 2219
原创 人工打标实现交通画像
人工打标实现交通画像package main.scala.com.jsptpd.anylysishotwordsimport java.util.Propertiesimport com.jsptpd.anylysishotwords.HostWordInfoimport org.apache.spark.sql.{Dataset, SparkSession}import scala.collection.mutableimport org.json4s._import org.j
2021-01-22 00:02:12 431
原创 时间序列ARIMA模型及预测
import pandas as pdimport datetimeimport matplotlib.pylab as pltimport seaborn as snsfrom matplotlib.pylab import stylefrom statsmodels.tsa.arima_model import ARIMAfrom statsmodels.graphics.tsaplots import plot_acf,plot_pacfstyle.use('ggplot')plt..
2021-01-07 00:44:20 1020
原创 Jupyter 快捷键总结
Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)快捷键:Enter :转入编辑模式 Shift-Enter :运行本单元,选中下个单元 Ctrl-Enter :运行本单元 Alt-Enter :运行本单元,在其下插入新单元 Y :单元转入代码状态 M :单元转入markdown状态 R :单元转入raw状态 设定 1 ...
2021-01-04 23:49:31 244
原创 mysql 统计数据
---查询表的更新时间SELECT `TABLE_NAME`, `UPDATE_TIME` ,TABLE_COMMENTFROM `information_schema`.`TABLES` WHERE `information_schema`.`TABLES`.`TABLE_SCHEMA` = 'city'
2020-12-29 01:05:38 224
原创 Ambari编译
cloudera manager 再无社区版hadoop hdp不再更改 ,纪念一下失去的青春1.1 环境搭建jdk1.8.0_161apache-maven-3.5.3CentOS 7.4.17081.2 JDK、Maven安装[root@localhost java]# cat /etc/centos-releaseCentOS Linux release 7.4.1708 (Core)[root@localhost java]# java -versionjava version
2020-12-25 22:54:29 559
原创 spark从数据库中获取字段,进行分词再入库
package com.jsptpd.anylysishotwordsimport java.io.{FileInputStream, InputStreamReader, StringReader}import java.util.{Date, Properties}import java.util.regex.Patternimport org.apache.spark.sql.{SaveMode, SparkSession}import org.wltea.analyzer.core..
2020-12-09 22:38:11 526
原创 spring boot整合 jsp
第一步:加入相应的mvc的配置spring.mvc.view.prefix=/WEB-INF/jsp/spring.mvc.view.suffix=.jsp第二步:加相应的依赖 <dependency> <groupId>javax.servlet</groupId> <artifactId>jstl</artifactId> <versi
2020-09-16 22:57:25 199
原创 spark 两种yarn布署模式,到底用哪种呢
节点数很多,采用spark-cluster,这样可以资源均衡。appmanager和nodemanger不在同一网段,采用spark-cluster模式,减少网络延迟。节点数少,又在同一网段,client模式和cluster模式,都是可以的。就算正式环境采用了spark-cluster模式,在刚上线时也要采用spark-client模式,这样可以获取信息,都没有问题了,稳定了,在切换到spark-cluster模式。...
2020-08-12 14:56:59 238
原创 B站好的大数据视频
B站最全的大数据学习汇总呦,喜欢的赶紧收藏学习吧大数据-八天零基础入门 BV11z411e7nT https://www.bilibili.com/video/bv11z411e7nT/?spm_id_from=333.788.b_636f6d6d656e74.31大数据必会的-15天学会JavaSE BV11z411e7nT https://www.bilibili.com/video/bv1JT4y1g7nM/?spm_id_from=333.788.b_636f6d6d656e74.32大..
2020-08-04 16:46:50 1640
原创 量化交易
定位: 掌握数据挖掘/机器学习技术的应用场景 从事量化策略工程师、量化策略分析方向目标: 掌握回测框架的使用 掌握股标的量化投资策略最化交易简介 了解量化交易的定义以及类别 说明量化交易研究流程 了解量化交易项目的工作内容什么是量化交易学习目标目标: 了解量化交的的定义量化交易: 定义 量化交易(量化投资)是指借助现代统计学和数据的方法,利用计算机来进交易的证券投资方式。量化交易从庞大的历史数据中海选...
2020-07-21 15:21:59 712
原创 业务数据分析
数据分析概述:数据分析方法: 业务数据分析: 数据挖掘 大数据分析知识及智慧 谷歌流感趋势预测 啤酒与尿布的故事 数据分析是将数据转化为知识、智慧的手段数据包含文本、音乐、文字 、数字等多种表达形式信息是逻辑、含义及时效性的数据知识是对事物的正确理解及认识,智慧是基于知识找到解决方案的能力。数据分析师常用工具: sql语言艺术数据分析在企业管理运营中的应用战略规划: 宏观环境分析、竞争对手分析、市场检测、市场趋...
2020-07-21 08:22:16 762
原创 Java 并发编程
目录前言这本书涵盖了什么这本书你需要什么这本书是给谁的约定读者反馈客户支持下载示例代码勘误盗版问题1,第一步-并发设计原则基本并发概念 并发与并行 同步化 不变的对象 原子运算和变量 共享内存与消息传递 并发应用程序中可能出现的问题 数据竞争 僵局 活锁 资源匮乏 优先级倒置设计并发算法的方法 起点-算法的连续版本 步骤1-分析 步骤2-设计 步骤3-...
2020-07-06 10:28:46 343
原创 基础Java多线程
创建线程的三种方式1:继承thread类,重写run方法2:实现runnable接口3:实现callable接口第一种方式:继承thread类package com.wangjunji.qifeng;//继承thread类public class TestCreateThread extends Thread { public TestCreateThread(String name) { super(name); } //覆盖run方法.
2020-06-08 16:24:42 1174
原创 Quartz定时任务框架
引言1.1简介quartz:http://www.quartz-scheduler.org 是一个定时任务调度框架,比如你遇到这样的问题想在30分钟后,查看订单是否支付,未支付则取消订单想在每月29号,信息卡自动还款想定时在某个时间去做某个任务quartz是要做定时任务调度,设置好触发时间规则,以及相应的任务job即可。基础编码多种tiggercron表达式spring整合任务管理...
2020-05-27 00:50:06 264
原创 hadoop的英文书
Mastering Hadoop 3Big Data Analytics with Hadoop 3Apache Hadoop 3 Quick Start GuideHands-On-Beginner-s-Guide-on-Big-Data-and-Hadoop-3Hands-on-Big-Data-Processing-with-Hadoop-3pro-apache-hadooppro-hadoop-data-analyticspro-hadooppractical-hadoop-mig.
2020-05-26 20:36:17 378
原创 MySQL核心技术
1、什么是数据库现有的数据存储方式有哪些?java程序存储数据(变量、对象、数组、集合),数据保存在内存中,属于瞬间状态存储文件存储数据、保存在硬盘上、属于持久状态存储以上存储方式存在哪些缺点没有数据类型的区分存储数据级较小没有访问安全限制没有备份,恢复机制二、数据库数据库是按照数据结构来组织、存储和管理数据的仓库。是一个长期存储在计算内的、有组织、有共享的、统一管理的数据集合。数据库的分类:网状结构数据库,美国通用电气公司,以节点形式存储和访问。层次结构数据
2020-05-26 08:12:39 863
原创 Hadoop 文档官方版本 (2)--- hadoop 单节点安装
目的本文档介绍了如何设置和配置单节点Hadoop安装,以便您可以使用Hadoop MapReduce和Hadoop分布式文件系统(HDFS)快速执行简单的操作。先决条件支持平台支持GNU / Linux作为开发和生产平台。 Hadoop在具有2000个节点的GNU / Linux集群上得到了证明。Windows也是受支持的平台,但是以下步骤仅适用于Linux。 要在Windows上设置Hadoop,请参见Wiki页面https://cwiki.apache.org/confluence
2020-05-25 16:21:29 513
区块链重塑电信行业
2018-02-24
智能合约的理念
2018-01-15
智投链 (IIC) 白皮书
2018-01-15
中国区块链技术和应用发展白皮书
2018-01-15
(中文)Trinity Pitch Deck
2018-01-15
区块链白皮书
2018-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人