自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大爵爷

大爵爷

  • 博客(51)
  • 收藏
  • 关注

原创 民法-课程

第一课 民法前言 第一课 民法前言第二课 民法基本原则第三节 民事法律关系第三节 民事法律关系 第一课 民法前言第二课 民法基本原则第三节 民事法律关系第一课 民法前言民法学科的特点是:考点上,高大上,环环相扣,逻辑严谨,内容庞杂 ;但是在考题上即使是不懂也能说个123在学考点的时候,考点在生活中的案例,举出来用考点做题准确率会提升,而不是用心灵感悟;法考积累的题目,都不是实际的案例,大部分都是命题人编撰出来的;民法课用考点做题民法没有重者恒重轻者恒轻,因为内容多庞杂无法压中,最

2022-02-26 21:46:26 349

原创 通信基础知识-1

移动通信课程1通信可以分为军用通信 卫星通信,手机通信。 手机通信也就是移动通信。通信技术分为三大流派:1、GPP流派2、高通流派3、WIMAX流派第一个流派: 3GPP流派3GPP是移动通信的一个国际组织,指定最新技术和规范。2G系统:2g使用的gsm系统 。gsm升级为GPRS系统后可以上网了,但是很慢。 EDGE是升级版的GPRS,网速快了一倍,但是网速只能浏览文字。3G系统:大约2008年,开始发展3G, 3G分为TD-SCDMA和WCDMA两个版本。TD-SCDMA是移动的,

2022-02-26 14:23:43 582

原创 spark 笔记

@目录spark底层是spark core是核心。其余的模块都是基于core实现的。sql: 操作结构化数据的一个模块。流式数据处理scala 环境安装:参考地址:https://blog.csdn.net/csdn_dengfan/article/details/88363224

2020-12-30 00:08:59 158

原创 conda笔记

conda 使用conda info --econda infoconda create -n py37 python3.7 创建python版本为3.7虚拟环境 注意使用-n 不要使用-nameconda activate py37 激活名字为py37的虚拟环境conda env list 列出所有的虚拟环境exit 退出conda remove -n py36 --all 删除虚拟环境注意–all 必须写全conda list 列出所有的安装包conda installjupy

2020-09-02 08:07:49 169

原创 阿里巴巴-大数据之路-笔记

文章目录第二篇 数据模型篇第8章第9章规范定义实例名词术语:第二篇 数据模型篇第8章数据模型是数据组织和存储方法,强调从业务, 数据存取和使用角度合理存储数据。好的数据模型能帮助更好的组织和存储数据, 能提升性能,减少成本,提高效率,提升数据质量。阿里的分布式计算平台 MaxCompute第9章数据建设方法论的核心是: 从业务架构涉及到模型设计,从数据研发到数据服务,做到数据可管理, 可追溯,可回避重复建设。数据接入层 ods数据中间层 dwd dws体系架构:规范定义:结合自身,行

2020-08-15 20:55:12 307

原创 排列组合

概率论统计学-笔记排列:从n个不同的元素中任意取出m个元素,按照一定顺序排成一列。组合:从n个不同的元素中,任意取出m个元素并成一组。在组合中选出的元素,去向是相同的;排列中去向是不同的;区别:排列与元素的顺序有关,组合和元素的顺序无关;组合式选出来即可;排列时选出来还要排序;例题1:从5个人选2个人去完成某个工作属于组合; 5个人选出来2个人去做同一个事情,没有分工,叫做去向相同;所以无顺序问题,属于组合。例题2:5个人选出2个人担任正副组长属于排列问题,选出的2个人,存在不同的分工

2020-08-12 20:24:59 2174

原创 用户画像-笔记

文章目录第一章第二章1. 用户属性维度2. 用户行为维度3. 用户消费维度4. 风险控制维度5 社交属性维度6. 标签命名第一章如何利用大数据实现精细化运营和精准营销服务。首先要做的事建立本企业的用户画像。收集社会属性,消费习惯,偏好特征等维度的数据。对这些特征进行分析,统计,挖掘价值。使用用户画像做个性化推荐,精准营销,个性化服务,是大数据落地的应用方向。标签分类:统计标签:最常见的标签,性别,年龄,城市,近7日活跃市场,活跃次数等,都是能从日志,业务数据中统计出来的。这是是用户画像的基础

2020-08-09 18:22:48 246

原创 数据立方体-Hive Cube

目录1. 数据立方体2. OLAP的基本操作3. Hive Cube3.1 with cube1. 数据立方体数据立方体是一种对多维的数据模型的描述方式。立方体只是三维的,但是实际数据中不仅仅是三维,可能是四维,五维的。如上图,数据可以从三个维度查询,这样更方便解读数据。2. OLAP的基本操作OLAP的多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot),下面还是以上面的数据立方体为例来逐一解释下:1)钻取(Dr

2020-08-09 10:26:36 10083 3

原创 数仓理论-汇总

目录1. 数仓分层和规范1.1 分层1.2 数据集市1.3 命名规范2. 数仓理论2.1 范式理论2.2 范式分类2.3 函数依赖2.4 三范式的区分2.4.1 第一范式2.4.2 第二范式2.4.3 第三范式2.5N. Notes1. 数仓分层和规范1.1 分层分层在不同的公司会有不同的形式,命名也有不同。但是大体上是差不多。 据说,阿里是分了4层,美团分了5层,京东分了9层。一般情况下分为下面的几层。ODS: Operation Data Store 原始数据层,存放原始数据,不做任何处理。

2020-07-14 23:52:56 1167

原创 数据库-关系建模

目录前言前言在ER建模之完成后,

2020-06-25 11:01:18 675

原创 csdn-样式

@[TOC](文章目录)<font color=#DC143C>基数约束</font>

2020-06-25 10:39:28 171

原创 数据库-ER建模

目录基本概念1. 实体 entity2. 属性 attribute3. 联系 relation3.1 基数约束的四种形态3.1.1 基数约束形态一3.1.2 基数约束形态二3.1.3 基数约束形态三3.1.4 基数约束形态四扩展概念在建设数据库过程中,最重要的是,需求分析阶段。这一步决定了数据库项目的成败。需求分析阶段,也叫做ER建模,【rentity-relationship modeling】也叫做需求可视化,概念建模。这个结阶段需要数据库开发人员和需求方以ER图的方式,对业务需求进行,可视化展现。

2020-06-24 22:22:20 2552

原创 数据仓库-维度建模

前言数仓有好几种建模技术,有ER建模,关系建模,还有专门针对数仓的维度建模。本文主要介绍维度建模,并说说三种建模方式。维度建模概念维度建模是专门用于分析型数据库,数据仓库,数据集市建模方法。它本身是一种关系建模方法https://www.cnblogs.com/muchen/p/5258197.html...

2020-06-22 15:39:14 389

原创 vlookup函数使用

excel 函数 vlookup使用每次使用vlookup的时候都会忘掉咋用的,做个记录。数据分2个表格,(1)第一个表格:第一列是车型id,第二列是条数;(2)第二个表格:第一列是车型id,第二列是条数;和前一个波表格一样, 但是id的顺序不一样。在第二个表中输入vlookup函数,根据第二个表格中的车型id列,查询第一个表中的相对应的车型id的条数。t2就是写vlookup函数的地方;t1是就是工作表1;公式是:=VLOOKUP(A2,工作表1!$A2:2:2:B$253,2,F

2020-06-20 09:50:53 611

原创 数据仓库-学习笔记

数据仓库数仓有二位大神,Bill Inmon 和 Ralph Kimball。 Bill Inmon所写的书Buliding the data warehouse【中文版为数据仓库】, Ralph Kimball所写的The data Warehouse Toolkit【中文版为数据仓库工具箱】。 可以说 Bill Inmon 将Ralph Kimball 的理念,尤其是维度建模的理念融合了进去。 所以现在所说的数据建模是二位大神的融合体。什么叫数据仓库?Bill Inmon的书中,表示数据仓库是面

2020-06-14 19:05:02 367

原创 深入浅出统计学-第三章

分散性与变异性的量度:强大的距平均数只能给部分的信息,可以知道一批数据的中心,但是无法知道数据的变动情况。极差:即最大值和最小值之间的差值。也称为上界, 下界。极差是一种度量数据分散程度的方法,算法为:上界 减去 下界。但是极差只是描述了数据的宽度,没有描述数据再上下界之间的分布形态。 当存在异常值,比如出现一个很大的值,就会导致不准确。 所以也是有局限性的。所以就需要使用四分位数方法,剔除前后的前后的异常值, 只取中间段的正常的数据。具体四分位数方法,百度。...

2020-05-17 02:02:41 301

原创 深入浅出统计学-第二章

数学公式笔记:参考:https://katex.org/docs/supported.html字幕 谬 :\muμ\muμ西格玛: \sum{f(x)}∑f(x)\sum{f(x)}∑f(x)分数:\frac{\sum{x}}{n} 写法是\frac{}{}, 分别在2个括号中写入内容∑xn\frac{\sum{x}}{n}n∑x​加括号:\left( \right) f(x,y,z) = \left( \frac{7x+5}{1+y^2} \right) = \left(

2020-05-16 18:21:34 620

原创 深入浅出统计学-第一章

第一章节介绍了几种常见的图表表现方式

2020-05-16 11:15:30 845

原创 SQL-方法-语法

SQL中的join如图所示:

2020-04-27 23:53:23 294

原创 linux命令

在linux中,&和&&,|和||介绍如下:& 表示任务在后台执行,如要在后台运行redis-server,则有 redis-server &&& 表示前一条命令执行成功时,才执行后一条命令 ,如 echo '1‘ && echo ‘2’| 表示管道,上一条命令的输出,作为下一条命令参数,如 echo ‘yes’ |...

2020-04-22 14:29:27 108

原创 零碎记录

bin目录是操作命令的;sbin目录是启动进程的。hadoop就分了bin和sbin目录,hive安装的时候只有bin目录,更多的是只有bin目录, 操作和启动在一起。

2020-03-14 20:11:22 111

原创 hadoop概述

hadoop概述hadoop的应用:大数据解决的是海亮的存储和海量数据的分析计算问题。hadoop1.x 和2.x的区别h1的napreduce负责了计算和资源调度,在h2里面,新增yarn负责资源调度,进行解耦,模块化。mapreduce只负责运算。...

2020-03-05 23:09:56 152

原创 hadoop文章汇总

入门HADOOP环境搭建以及测试案例HDFS

2020-03-05 23:01:46 151

原创 hadoop搭建以及配置

hadoop的安装分为三种模式:1. 本地模式2. 伪分布式模式3. 完全分布式模式本地模式:本地模式安装一 官网下载hadoop安装包 ,选择二进制的。下载 wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz解压 解压到当前目录tar -zxvf hado...

2020-03-05 00:24:40 334

原创 Hadoop安装后 启动时报Error: JAVA_HOME is not set and could not be found

Hadoop安装完后,启动时报Error: JAVA_HOME is not set and could not be found.解决办法:在/etc/hadoop/hadoop-env.sh中加入JAVA_HOME的值,应当使用绝对路径。正确方式是:export JAVA_HOME=/usr/java/jdk1.80_45...

2020-03-04 22:52:57 1039

原创 Kafka笔记

定义:Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于 大数据实时处理领域消息队列的好处:1. 解耦2. 可恢复性3. 缓冲4. 灵活 & 峰值处理能力5. 异步通讯消息队列的模式:1. 点对点模式:一对一,消费者主动拉取数据,收到消息之后消息会清楚。2. 发布订阅:一对多,消费者消费数据之后不会清除消息。 ...

2020-02-29 12:20:47 163

原创 static关键词

static修饰的对象不贵具体的某一个对象所有,而是大家共享的。可以修饰 属性, 方法, 方法块, 内部类不能修饰构造器。static 修饰属性:静态变量(也叫类变量,也就是归类所有 )属性,按照是否使用static修饰,又分为静态属性 vs 非静态属性(实例变量)实例变量:创建了类的多个对象,每个对象都独立拥有一套类中的非静态属性,当修改其中一个对象的非静态属性时, 不会导致其他对...

2020-02-20 09:20:29 82

原创 druid

druid 特点:分布式劣势实时分析druid是数据存储系统。比原olap例如hive 要更实时, 便捷。特点列式存储可扩展大规模并发查询实时批量处理自愈,自平衡, 易操作有效的预聚合和预计算使用bitmap压缩应用场景适用于清洗好的记录实时录入,但不需要更新操作。如果是启动日志和事件日志就不行。适用于支持宽表,不用join的方式。即,只能运算单表;不能多表...

2020-02-18 20:09:38 321

原创 druid

druid 特点:分布式劣势实时分析druid是数据存储系统。比原olap例如hive 要更实时, 便捷。特点列式存储可扩展大规模并发查询实时批量处理自愈,自平衡, 易操作有效的预聚合和预计算使用bitmap压缩应用场景适用于清洗好的记录实时录入,但不需要更新操作。如果是启动日志和事件日志就不行。适用于支持宽表,不用join的方式。即,只能运算单表;不能多表...

2020-02-18 20:09:00 272

原创 数据仓库的表

事实表和维表事实表是用来记录具体时间,包含了每个事件的要素,以及具体发生的事情;维表则是对事实表中的时间的要素的描述信息。比如一个事件, 包含了时间,地点,任务,事件;事实表记录了整个事件的,但是对时间,地点和人物等要素只记录了一些关键标记。比如事件的地点是北京, 但是北京分了几个区, 区号是啥, 就要到对应的维表里面查询。再比如,事件的主角叫“Michael”,那么Michael到底“...

2020-01-13 22:14:38 483

原创 DataNode工作机制

集群有2个角色, 一个是namenode,一个datanode;datanode启动之后向namenode注册;只要是包含了哪些块,哪些数据;namenode会将信息添加到元数据中;这些信息按周期上报一次, 默认1小时;namenode和datanode之间还有心跳,每三秒一次,心跳的返回结果带有namenode给datanode的命令;超过10分钟没有datanode的心跳,就认为节...

2020-01-08 23:52:08 116

原创 mapreduce

mapreduce是一个分布式运算程序的编程框架;是给予hadoop的数据分析应用的基础框架。优点:易于编程;简单的实现一些接口就能完成一个分布式的任务。良好的扩展性;通过增加机器就能提高性能。高容错性;其中一台挂了, 会自动的转移到另一个节点上运行,不需要人为操作。适合pb级别的海量离线数据处理。缺点:不是实时计算;不能像mysql一样在毫秒或者秒内返回结果。不擅长流式计算。...

2020-01-08 09:26:59 172

原创 数据仓库-概念

数据仓库日志采集系统: 是采集用户的点击行为,操作记录。用于数据分析,推荐用户画像等工作。业务系统数据库: 是存储的一些数据,比如价格等,一般使用mysql等数据库。需要实时的查询。...

2020-01-05 23:57:46 143

原创 java-继承

总结继承,重写等内容

2020-01-05 01:49:26 96

原创 Java-封装-构造器

目录封装构造器属性赋值的先后顺序 封装封装 与 隐藏是面向对象的特性之一。程序追求的是高内聚, 低耦合。封装的作用: 隐藏内部的复杂性;只公开简单的接口;方便调用;从而提高可用性,扩展性;通俗的说就是隐藏该隐藏的, 暴露该暴露的。这就是封装的思想。在对象的属性赋值的时候, 除了属性的数据类型,存储范围之外, 实际中还需要加上别的限制条件,但是又不能在声明属性的时候设置, 需要通过方...

2020-01-04 17:19:47 272

原创 Java-类

Java类方法变量方法注意事项:同一个类中,在一个方法中,能调用属性(即全局变量),也可以调用同类中别的方法。【跟python一样】方法中不能再定义一个新的方法变量属性也叫成员变量,与之相对应的是局部变量。属性(成员变量) vs 局部变量不同点不同点成员变量局部变量定义的位置不一样写在类的一对 {} 之内 比如下面的 String name; i...

2020-01-03 21:52:57 142

原创 object类常用方法

package demo5;public class demo5_5 { public static void main(String[] args) { String st = new String(); printClassInfo(st); } public static void printClassInfo(Object ob...

2020-01-03 18:32:34 99

原创 时间格式化处理

Java时间格式化先从最简单的一种方式开始:SimpleDateFormat 类SimpleDateFormat是DateFormat 类的子类。SimpleDateFormat类是个具体类, 是可以进行实例化的。 SimpleDateFormat可以指定时间的格式。SimpleDateFormat 类主要有如下 3 种构造方法。SimpleDateFormat():用默认的格式和默认...

2020-01-03 17:11:33 225

原创 零碎笔记-java

IntelliJ IDEA使用:System.out.println(); 快捷键: sout

2020-01-03 15:14:47 112

原创 Java-面向对象-学习

面向对象面向对象 学习的三条主线:java类以及类的成员: 属性,方法, 构造器,代码块,内部类面向对象的三大特征,封装 继承 多态,(抽象性)其他关键字属性,方法, 构造器使用 最多代码块,内部类使用较少面向对象的2个要素:类 :对一类事物的描述, 是抽象的对象: 实际存在的个体,也叫实例面对对象的程序设计重点是类的设计;类的设计就是类成员的设计;一个类包含的属...

2019-12-31 14:34:05 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除