自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 大数据调度系统

有了数据平台、数据仓库之后,还需要一个。

2023-08-21 22:31:00 210

原创 RDD基础学习

迭代式算法和交互式数据挖掘中存,不同计算阶 段之间会重用中间结果,为了减少中间结果写磁盘带来的数据复制、磁盘IO和序列化开销,spark提供了一个。通过RDD只需将,不同 RDD 之间的转换操作之 间还可以形成依赖关系,进而实现pipeline,减少了中间结果的存储,大大降 低了数据复制、磁盘 IO 和序列化开销,并且还提供了更多的 API(map/reduec/filter/groupBy...)。1.2 RDD是什么Resilient Distributed Dataset,弹性分布式数据集,

2023-08-16 23:27:09 175

原创 阿里大数据——维度设计

在维度建模中,将度量称为“事实”,将环境描述为“维度”,维度是用于分析事实所需要的多样环境。的属性加入到商品维度中,极限情况是每天所有商品数据都发生变化,此时,极限存储没有意义;维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。主维表存放稳定,产出时间早,热度高的属性;缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随时间的流逝发生缓慢变化。当不同数据域的计算过程使用的维度不一致,就会导致交叉探查存在问题。垂直整合:不同的来源表包含相同的数据集,只是存储的信息不同。

2023-08-09 22:57:02 199 1

原创 阿里数仓建模

OneData 的实施过程是一个高度迭代和动态的过程,一般采用螺旋式实施方法;在总体架构设计完成后,开始根据数据域进行迭代式模型设计和评审;在架构设计、规范定义、模型设计等模型实施过程中,都会引入评审机制,以确保模型实施过程的正确性;(200条消息) 大数据:阿里数据仓库建模及管理体系OneData什么是阿里onedata_阿里onedata体系_Hero.Lin的博客-CSDN博客阿里巴巴大数据之路-数据模型篇 - 知乎 (zhihu.com)

2023-08-03 00:17:33 183

原创 Hive-架构、执行

Hive是基于hadoop的数据仓库工具,将结构化的数据映射为一张表,提供类sql的查询功能。本质-- SQL解析,将HQL转为MapReduce执行过程。

2023-07-17 22:17:38 138 1

原创 设备风控学习

通过SDK采集信息,将采集信息进行分析和挖掘,用以描述设备的特征。

2023-04-28 17:02:01 278

原创 TCP协议

以太网协议和 IP 协议的上层协议,应用层协议的下层协议。以太网协议(Ethernet)规定电子信号如何组成数据包(packet),解决了子网内部的点对点通信问题。IP协议规定了不同局域网之间的通信问题,实现了功能。但是,丢包问题需要依靠。TCP 协议的作用是,保证数据通信的完整性和可靠性,防止丢包。,为1518字节,后来增加到字节——1500byte是负载payload,22字节的头信息head。含在以太网数据包的负载中,其中,因此。TCP数据则包含在 IP 数据包的负载里面。

2023-04-17 17:06:34 117

原创 IP地址划分

TCP/IP网络体系中的。唯一标识了互联网中的一台设备,相当于“身份号码”。互联网中的一台网络设备可以拥有多个IP地址,但一个IP地址只能对应一台网络设备,IP地址具有唯一性。⭐ IP 协议提供无发送端可在任意时刻发送数据,而接收端不知道何时接收到来自哪里的数据。每个IP数据报独立处理和传输。, 甚至会出现丢失。在传输的过程中,IP 数据报可能会丢失、重复、延迟和乱序等,IP 数据报的丢失,通过路由器发ICMP报文告知,必要时,由高层实体(如 TCP)负责差错恢复动作。

2023-03-31 15:20:43 1370 1

原创 无线路由器及Wi-Fi组网

无线Wi-Fi及组网简介

2023-03-29 13:35:18 930

原创 计算机网络协议

计算机网络模型OSI和TCP/IP简介

2023-03-26 16:22:23 1063

原创 Spark面试问题汇总

1、什么是spark计算速度快() () (比mapreduce快100倍)易于使用(丰富的算子) (支持多种语言)通用的大数据解决方案 (spark批处理) (spark sql)(spark streaming流处理)丰富的生态圈 (支持多种数据类型)(机器学习)(图计算)2、spark的基本概念表示应用程序表示main()函数,创建SparkContext。由SparkContext负责与ClusterManage通信,进行资源的申请,任务的分配和监控等。

2023-03-23 11:10:34 583

原创 Flink基础汇总

flink基础学习

2022-12-04 16:46:57 444

原创 AB实验学习

数据分析之显著性检验

2022-12-04 15:28:56 631

原创 pytorch相关安装命令

Anaconda pytorch安装命令

2022-06-04 16:36:21 238

原创 shell命令学习

shell命令,面试题库

2022-03-30 10:35:42 1305

原创 leetcode——回溯法基础

回溯法「回溯法」实际上一个类似枚举的搜索尝试过程,主要是在搜索尝试过程中寻找问题的解,当发现已不满足求解条件时,就「回溯」返回,尝试别的路径。一般情况下,看到题目要求「所有可能的结果」,而不是「结果的个数」,就知道需要暴力搜索所有的可行解了,可以用「回溯法」。回溯是一种算法思想,递归是一种编程方法,回溯法可以用递归来实现。回溯法整体思路:搜索每一条路径,每次回溯是对具体的一条路径而言。对当前搜索路径下的未探索区域进行搜索,可能有两种情况:(1)当前未搜索区域满足结束条件时,保存当前路径并推出当前搜

2022-02-09 18:48:30 441

原创 DFS与BFS算法

深度优先遍历简称DFS(Depth First Search),广度优先遍历简称BFS(Breadth First Search),它们是遍历图当中所有顶点的两种方式。下面分别介绍两种基本的搜索算法。

2022-02-06 08:53:49 24218 2

原创 python实现图的结构

节点定义# 图节点结构class Node: def __init__(self, value): self.value = value # 节点值 self.come = 0 # 入度 self.out = 0 # 出度 self.nexts = [] # 邻居节点 self.edges = [] # 在节点为from的情况下,边的集合边定义class Edges: def __init__(self, weight, fro

2022-02-05 10:23:45 2224

原创 指针与双指针

指针与双指针

2022-02-04 20:58:51 395

原创 数据结构——链表

数组是常用的数据结构,但是有其局限性:编译期需要确定元素大小数组在内存中是连续的,插入或者删除需要移动数组中其他数据数组适合处理确定长度的,对于插入或者删除不敏感的数据。如果数据是频繁变化的,就需要选择其他数据结构了。本文介绍链表。链表是一种在存储单元上非连续、非顺序的存储结构。数据元素的逻辑顺序是通过链表中的指针链接次序实现。链表由一系列的节点组成,节点可以在运行时动态生成,因此链表的长度没有逻辑上的限制,有限制的是堆的大小。在单向链表中。每个节点包含两部分:数据域与指针域。数据域存储数据元素,指

2022-01-26 21:59:33 1513

转载 二分查找算法

leetcode二分搜索

2022-01-19 15:53:59 98

原创 抽屉原理(鸽巢原理)

参考:https://www.cnblogs.com/ECJTUACM-873284962/p/7215942.html

2022-01-19 09:07:34 126

原创 GPU资源

算机研究生在读,实验室没有显卡…但是! 实验还是要做呀,所以到处找GPU资源。首先用到了google colab,colab(非Pro)内存空间比较小,GPU也有使用时长限制,不是很方便。。。。最近在租服务器,一直在使用恒源云。最大的优点就是价格优惠,性价比高。另外,恒源云平台提供的机器种类还是很多的,价格高低都有,特别是RTX 2080 Ti 1.80一小时简直不要太香,学生认证还可以9.5折购买,赠送代金券、签到换券等等。。恒源云使用起来还是很方便的,提供基础框架,还可以自定义框架,技术文档也

2021-12-22 09:07:39 538

原创 GPU资源种草

最近在用的服务器——恒源云价格亲民,适合学生党,使用也比较方便,有很多参考文档,提供不同价位的GPU,选择很多。优势:1、带宽高,数据集下载速度比较快。2、可以通过签到获得优惠券,学生认证还有95折优惠折扣购买服务器,并可获得100元优惠券3、邀请新人注册可获得代金券(30元左右),碰上活动还会增加哦~4、经常会有各种活动,活动期间有代金券抽奖等福利5、参考文档有很多,社区还可以讨论,向大佬学习!等等等等…链接在这里哦~~添加链接描述...

2021-11-28 10:07:25 98

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除