自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 问答 (1)
  • 收藏
  • 关注

原创 理解特征工程

1. 特征工程的目的:特征工程就是将原始数据空间映射到新的特征向量空间,使得在新的特征空间中,模型能够更好地学习数据中的规律。因此,特征提取就是对原始数据进行处理与变换的过程。常见的原始数据类型有数值型、离散型,还有文本、图像、视频等。如果将这些数据作为一个整体来看待的话,把用户、视频、作者看作节点,用户与视频、作者的交互看作边构建出的复杂网络也是我们的原始数据。2. 特征的来源在微视场景下,视频的播放时长、播放完整度、点赞、转发、分享、评论等多种互动行为都是推荐模型的训练目标,根据模型所要学习的目标

2021-06-25 14:27:40 532

原创 bazel相关

官方文档:bazel官方文档bazel简介bazel是Google开源的一套编译构建工具,广泛应用于Google内部。主要优点:1 构建快。支持增量编译。对依赖关系进行了优化,从而支持并发执行。2 可构建多种语言。bazel可用来构建Java C++ Android ios等很多语言和框架,并支持mac windows linux等不同平台3 可伸缩。可处理任意大小的代码库,可处理多个库,也可以处理单个库4 可扩展。使用bazel扩展语言可支持新语言和新平台。整体结构1.workspace

2021-06-05 16:50:12 285 1

原创 Hadoop-MapReduce

1.MapReduce简介Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的思想就是“分而治之”。(1)Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义:一是数据或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会分配到存放着所需数据的节点上进行计算;三是这些小任务可以并

2021-05-26 20:03:07 252

原创 Hadoop-HDFS

1.HDFS简介  HDFS是基于 流数据 访问模式的 分布式文件系统 ,其设计建立在 “一次写入、多次读取” 的基础上,提供高吞吐量、高容错性的数据访问,能很好地解决海量数据的存储问题。  其中,流数据 是指数千个数据源 持续生成 的数据,可以理解为随时间延续而 无限增长 的动态数据集合。通俗点说,如果把数据比如成一个水库,那么流进去的水,就是流数据(就像我们听的音乐,属于音乐流;而看到的文字、图片这些较为固定的,一次性下载的,形成不了流)。2.优缺点1.优点  高容错性。提供了容错和

2021-05-26 17:01:55 133 1

原创 Hadoop架构

1.Hadoop的目标随着数据量的增大,以往单机的存储计算模式无法满足。Hadoop就是存储海量数据和分析海量数据的工具。2.Hadoop的组成1.HDFS:一个高可靠、高吞吐量的分布式文件系统2.MapReduce:一个分布式的离线并行计算框架3.YARN:作业调度与集群资源管理的框架4.Common:支持其他模块的工具模块其中Hadoop的核心组成是HDFS与MapReduce两部分:  1.HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服

2021-05-26 16:34:40 111

原创 Shell脚本相关

1.Shell简介 shell是linux的一个外壳,它包在linux内核的外面,为用户和内核之间的交互提供了一个接口。 当用户下达指令给该操作系统的时候,实际上是把指令告诉shell,经过shell解释,处理后让内核做出相应的动作。 系统的回应和输出的信息也由shell处理,然后显示在用户的屏幕上。Shell脚本:简单的来说,当命令或者程序不在命令行执行,而是通过一个程序文件来执行,这个程序就称为为shell脚本也就是在shell脚本里内置了多条命令,语句,循环控制,然后将这些命令一次性执行

2021-05-09 19:06:28 185

原创 git相关

git实在是太屌了!简介:Git是目前世界上最先进的分布式版本控制系统,在处理各种项目时都十分高效,而且非常的高大上。SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自己的电脑,所以首先要从中央服务器哪里得到最新的版本,然后干活,干完后,需要把自己做完的活推送到中央服务器。而且集中式版本控制系统是必须联网才能工作。Git是分布式版本控制系统,它就没有中央服务器的,每个人的电脑就是一个完整的版本库,这样,工作的时候就不需要联网了,因为版本都是在自己的电脑上。与SVN的

2021-05-09 11:25:00 250

原创 Kafka相关

简介:Kafka是一种消息队列,主要用来处理大量数据状态下的消息队列,一般用来做日志的处理。既然是消息队列,那么Kafka也就拥有消息队列的相应的特性了。特点就是:分布式,分区的,多副本的,多订阅者的消息发布订阅系统。应用场景:应用耦合、异步处理、限流削峰、消息驱动的系统。1.耦合的状态表示当你实现某个功能的时候,是直接接入当前接口,而利用消息队列,可以将相应的消息发送到消息队列,这样的话,如果接口出了问题,将不会影响到当前的功能。2.异步处理替代了之前的同步处理,异步处理不需要让流程走完就返回结

2021-05-08 19:40:55 138 1

原创 Yaml相关

简介:YAML是一个可读性高,用来表达数据序列的格式。YAML文件扩展名为.yaml或.yml。YAML是”YAML Ain’t a Markup Language”(YAML不是一种标记语言)的递归缩写。在开发这种语言时,YAML的意思其实是:”Yet Another Markup Language”(仍是一种标记语言),但为了强调这种语言以数据做为中心,而不是以标记语言为重点,而用反向缩略语重命名。功能:由于它使用空白符号缩进和大量依赖外观的特色,特别适合用来表达或编辑数据结构、各种配置文件、倾印调

2021-05-08 19:29:31 246

原创 动态规划

https://leetcode-cn.com/problems/2-keys-keyboard/solution/dong-tai-gui-hua-xiang-xi-fen-xi-jie-shi-wei-shi-y/

2021-03-19 10:24:11 61

原创 中断,上下文与进程切换

中断与上下文系统调用,异常与中断中断与异常进程切换硬件上下文系统调用,异常与中断系统调用,异常与中断都会对系统产生由用户态到内核态的过程,但是其之间有着不同的过程和机制。系统调用和异常由cpu内部正在执行的指令产生;系统调用是用户程序调用OS提供的接口函数并执行svc(supervisor call)指令陷入内核态并执行相应功能函数,异常是系统内部产生的如缺页异常问题而陷入内核态。这两者都称为同步中断。此外,中断时由外部设备产生的不能预见的问题,所以称为异步中断,这三者都会使得用户态陷入内核态,并通过中

2020-11-03 20:13:38 844

翻译 求解问题结果规模未知的情况—回溯算法 + 剪枝(lc.46)

解题思路:做搜索、回溯问题的套路是画图,代码其实就是根据画出的树形图写出来的。那么如何画图呢?根据题目中的用例,画一个图,因为是搜索,因此呈现的是一个树形结构图,并且在这个树形结构中会体现出递归结构。根据题目中的用例,比对自己画图的结果和题目的结果的差异,如果一样,说明我们的分析没有错;如果不一样,说明我们的分析有误,一定有哪一个环节漏掉了或者分析错误,根据找到的问题调整算法。下面我具体...

2020-06-22 16:23:41 100

翻译 利用单位乘法实现整体乘法(字符串)

class Solution {public: string multiply(string num1, string num2) { int n1=num1.size(); int n2=num2.size(); string res(n1+n2,'0'); for(int i=n2-1;i>=0;i--){ ...

2019-11-19 09:34:01 86

原创 字典序

字典序算法用来解决这样一个问题:给定其中一种排列,求基于字典序的下一种排列。比如给定一种排列为 abc,则其基于字典序的下一种排列为 acb。要求下一种排列既要比原排列大,又不能有第三种排列位于他俩之间。即下一种排列为大于原排列的最小排列。以输入为 358764 为例,字典序算法的步骤:1、从原排列中,从右至左,找到第一个左邻小于右邻的字符,记左邻位置为 a。示例中 a=1,list[a...

2019-10-25 16:23:46 79

转载 递归函数理解、设计思路

https://blog.csdn.net/bl128ve900/article/details/89306627

2019-10-23 16:26:23 110

转载 24. 两两交换链表中的节点

24. 两两交换链表中的节点题目给定一个链表,两两交换其中相邻的节点,并返回交换后的链表。你不能只是单纯的改变节点内部的值,而是需要实际的进行节点交换。示例:给定 1->2->3->4, 你应该返回 2->1->4->3.思路在链表前加入一个新的头结点作为标志位,方便每次处理后两个节点。注意1、不要在代码段中处理空指针,会报错。初始化只初始化...

2019-10-22 10:47:07 54

转载 19. 删除链表的倒数第N个节点

19. 删除链表的倒数第N个节点题目给定一个链表,删除链表的倒数第 n 个节点,并且返回链表的头结点。示例:给定一个链表: 1->2->3->4->5, 和 n = 2.当删除了倒数第二个节点后,链表变为 1->2->3->5.一次遍历方法我们可以设想假设设定了双指针 p 和 q 的话,当 q 指向末尾的 NULL,p 与 q 之间相隔的元素...

2019-10-16 19:23:13 69

转载 15. 三数之和

15. 三数之和题目给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组。注意:答案中不可以包含重复的三元组。实例:例如, 给定数组 nums = [-1, 0, 1, 2, -1, -4],满足要求的三元组集合为:[[-1, 0, 1],[-1, -1, 2]]排序+双...

2019-10-16 11:18:53 67

转载 17. 电话号码的字母组合

17. 电话号码的字母组合题目1 深度优先的回溯方法2 广度优先的队列方法题目给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。**示例:**输入:“23”输出:[“ad”, “ae”, “af”, “bd”, “be”, “bf”, “cd”, “ce”, “cf”].1 深度优先的回溯方法回溯...

2019-10-16 11:09:41 65

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除