自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

caiqiuxia的博客

学习记录

  • 博客(15)
  • 收藏
  • 关注

原创 2020-11-24

Map阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源; Mapper数太小,并发度过小,Job执行时间过长,无法充分利用分布式硬件资源;2、Mapper数量由什么决定??(1)输入文件数目(2)输入文件的大小(3)配置参数涉及参数: mapreduce....

2020-11-24 18:19:04 230

原创 2020-09-30

切题技能反转链表同时赋值

2020-09-30 12:36:23 114

原创 2020-09-29

动态规划爬楼梯1.回溯2.动态规划.

2020-09-30 12:25:34 125

原创 2020-09-29

位运算Hamming weight1.%2--》count++2.x=x&(x-1)判断任何一个数是否为以2为底的指数1.mod,2.log2==>int3.位运算(判断只有一个1) 判断有多少二进制位为1N皇后问题位运算判重所有方法中最好的...

2020-09-29 19:37:29 113

原创 2020-09-29

字典树以空间换时间python实现:字典的应用单词搜索word,board1.DFS,枚举操作费时间2.Trie,根节点,边上后候选词

2020-09-29 16:21:12 52

原创 2020-09-28

二分查找求平方根猜,试1.二分法:单调递增,抓住循环部分和终止条件2.牛顿迭代法

2020-09-29 10:29:20 60

原创 2020-09-27

搜索:在树中寻找特定节点广度优先搜索算法场景:在集合中找到突破点,在搜索集中找到突破点运用方法:递归,队列,堆栈....人脑:纵观全局计算机:处理重复BFS:水滴扩散递归写法,手动维护队列深度优先搜索DFS:一查到底,走到尽头回溯,漏网之鱼图的深度优先搜索利用递归写法非递归写法(了解)广度、深度区别例题:二叉树的层次遍历1.BFS: 横向填充a.level信息加到队列queue(元素本身,是否为每层终点,每层情况都...

2020-09-28 21:54:30 131

原创 2020-09-27

贪心算法适用条件:1.问题能被分解为子问题2.子问题能递推到最终问题3.子问题的最优解成为最优子结构与动态规划的区别:贪心算法:不能回退动态规划:会保存以前的运算结果,根据以前的结果对当前进行选择,有回退功能例题:买卖股票最佳时机持有1股,买卖无数次1.深度优先搜索,每一步两个操作,买1股卖1股,O(2^n)2.贪心算法:每天进行比较操作(无交易手续费)O(n)3.动态规划:记录每一天之前的状态,后续继续讲O(n)...

2020-09-27 11:27:23 80

原创 2020-09-26

递归&分治代码模板:重点:level(在第几层),业务逻辑,下一层递归调用,解决完之后收尾斐波拉契:递归应用--分治:没有所谓的重复计算,有重复计算可考虑动态规划和子问题复用计算X的n次方1.调用库函数(面试官不允许写)O(1)2.暴力O(N)3.傻乘,一分为二(奇偶),左边计算==》计算x的n/2次方(偶),计算x的n/2次方(偶)==》n/4。。。。。 O(logn)非递归:不断对 n 进行判断,n的位移...

2020-09-27 11:07:48 121

原创 2020-09-26

树&二叉树&二叉搜索树(左小右大)(平衡二叉搜索树,红黑树)判断数据是否为二叉排序树(左子树,右子树)中序遍历(左根右:判断数组是否为升序)递归(返回值可以传两个)判重--排序--变为列表(空间复杂度高)只需记住前继节点最小公共祖先1.路径寻找,最早重合的地方O(n)2.递归:辅助函数:-findporq(root,p,q) , findporq(root,left,p,q), findporq(root,right,p,q) O(n)

2020-09-26 19:45:10 82

原创 2020-09-26

map&sethash表需要了解hash函数和hash碰撞,hash碰撞需要利用拉链表方式进行集合set的实现底层是hash(乱序,时间复杂度要求高)或者是二叉树(有序的)变位词,字母相同组成的单词不同解题:1.排序sort (快排O(nlogN)) 2.map 计数(O(N))set常用于查询和计数两数之和1.暴力求解(嵌套循环)O(N2)2.枚举x,set中查找9-x是否存在O(N)三数之和1.暴力循环O(N3)2。枚举a,b,set.

2020-09-26 17:04:38 115

原创 2020-09-25

堆栈合辑判断括号合法:括号匹配成对解题重点:push,peek/pop,empty相关应用:字典,列表,如何巧妙使用字典key-value堆栈队列转换:利用连个栈来表示队列,核心在于将陷入后出转化为先入先出优先队列:堆和队列二叉堆:大顶堆,小顶堆,斐波拉契堆效果最好实时判断数据流中第K大元素,K大小数组,进数排序,优先队列,维护小顶堆,每次最小出堆,O(n)heap比排序快10倍,找找python解法,小顶堆的运用数组sliding window 最大值,队列..

2020-09-26 11:41:13 120

原创 2020-09-25

链表相关应用反转链表:解题关键:两两互换,末尾空指针转为头两两反转链表:解题思路:判断第二个节点对开始后的两两反转,需要考虑第一个节点对的处理pre探测环:快慢指针,会相遇的就有环...

2020-09-25 20:22:10 61

原创 阿里巴巴大数据之路

数据治理:对这些数据进行有序、有结构地分类组织和存储,目前企业数据现状:集团数据存储达到EB (1EB=1024PB==2^60字节)级别,部分单张表每天的数据记录数高达几千亿条:数据工程师工作:数据工程师每天要面对百万级规模的离线数据处理工作。数据模型、数据研发、数据质量和运维保障工作。大数据系统体系:数据采集、数据计算、数据服务和数据应用数据采集层:日志采集体系方案:Aplus.JS Web 日志采集技术方案;UserTrack APP 端日志采集技术方案各个场景埋点规范:满足..

2020-06-13 22:47:34 785

原创 机器学习专题1

线性回归1 线性回归的原理1 线性回归的一般形式2 极大似然估计(概率角度的诠释)2、线性回归损失函数、代价函数、目标函数3、线性回归的优化方法1、梯度下降法2、最小二乘法矩阵求解3、牛顿法4、拟牛顿法4、线性回归的评价指标1 线性回归的原理1 线性回归的一般形式有数据集{(x1,y1),(x2,y2),…,(xn,yn)}{(x1,y1),(x2,y2),…,(xn,yn)},其中,xi=...

2020-04-21 23:46:45 384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除