- 博客(13)
- 收藏
- 关注
原创 Spark
Spark主要有两种模式: 1. Spark Standalone - 单独模式。 2. Spark on Yarn - 运行在Yarn上,可以与其他计算框架共享资源 1) Yarn Client Driver在任务提交机上运行 bash spark-shell 启动spark-core(scala)的交互模式。数据Yarn-Client模式 2) Yar...
2018-08-26 21:44:38 194
原创 SQL Server AlwaysOn (高可用)
前提: 要搭建再Windows Cluster上高可用机制优点:除了故障转移之外,还可以负载均衡(load balance),主副本更新,辅助副本只读。可用性模式分为 同步提交和异步提交同步: 主副本需要等待同步辅助副本的日志保存到磁盘,然后同步提交,有延迟自动故障转移和计划的手动古装转移只能用于同步的副本 异步:主副本不需要等待辅助副本的的日志保存到磁盘异步副本只能...
2018-08-24 00:25:03 1133
原创 20180823 先爱自己
两年的时间,感觉自己还没有沉到谷底,或者说还没有转机。 感觉有时候只能靠自己。怎么做呢,我也不是很清楚。走出来的过程也许就是个重拾自信的过程,自信来的没那么容易而且也许也需要些运气。所以,在这里提醒自己 1. 不要太在意别人的眼光,尤其是那些并不是和自己太干的人的。唯一要在意并且感激的是那些曾经工作中帮助过我成长的人。 2. 如果实质上改变不了什么,就从自己的克制力开始。 1) 早点...
2018-08-23 23:04:02 158
原创 求最长回文子串
“abcbc” => bcb 或 cbc = 3 “abcbe” => bcb = 3遍历每个字符往两边扩展 static int longestPalindrome(string input) { int maxLength = -1; for (int i = 0; i < inpu...
2018-08-23 17:54:31 162
原创 推荐算法的简单认识
发掘长尾,推荐相对关注度低的东西基于流行度的算法-简单粗暴,根据pv,uv热度来推荐协同过滤算法 1) 基于用户 - 根据用户对物品的打分情况找出相似度高的用户,推荐评价高却没有被发现的物品。用户相似度读使用cos算余璇,夹角越小越相似。1) 基于物品 很多人喜欢物品A, 这些人中相当多的人又很喜欢物品B,那么A和B的相似度高。这样,浏览过A的用户,如果他没浏览过B,可以推荐B...
2018-08-16 23:25:36 1058
原创 RDD
弹性数据集,就是个逻辑上的数据集算子Transformation (Lazy) map flatMap groupByKey reduceByKey psersist cacheAction: Reduce collect saveAsTextFile窄依赖: 不用做shuffle 宽依赖: 需要做shufflestage划分: 遇到宽依赖shuffle就...
2018-08-16 22:11:14 144
原创 Hive
架构 Hive Driver 1.解释 - 分析query 2.编译 3.优化 4. 执行器要与metastore进行通讯– explode select a, explode(b) as bb from tbl;– lateral view select a, b from tbl lateral view expode(splict(b)) as b;...
2018-08-16 20:25:10 177
原创 [一些算法题的C#实现] 求最大子序列
求最大子序列, 序列未排序 如: {11, 10, 2, 3, 1, 5, 7, 8, 9 } => 5 (7, 8, 9, 10, 11)除了对数组排序后在进行查找之外,还可以同通过HashMap Hash static int GetLongestSequence1(int[] arr) { int maxLength = 0; ...
2018-08-16 20:24:14 186
原创 [Hadoop 1.x] MapReduce - 1
Job Tracker 接收实并例化任务, 调度任务到节点上运行监控任务运行监控节点状态-Task Tracker 1. 通过心跳通知当前节点的健康状态 2. 每次心跳包含map reduce的任务数,以及运行任务的详细信息 3. 若Slave空闲,每次心跳会询问Job Tracker是否有新的任务做 4. 通过线程池多线程处理心跳和客户请求 5. 每个工作节点(data ...
2018-08-16 20:23:53 498
原创 HDFS原理
block默认大小128M dfs.block.size=128MB 保存多个副本由Name Node, Secondary Name Node和Data Node组成Name Node 存储元信息 1. 文件,文件目录的层级关系 2. 文件,文件目录的权限 3. 文件由哪些块组成 4. block和data node之间的映射元数据保存在内存中太多的小文件会造成 b...
2018-08-16 20:23:30 135
原创 SQL Server的4个隔离级别
读未提交。事务A读事务B未提交的操作。若事务B之后回滚,或者继续更新,则事务B最后提交的和事务A读到的不一致,导致事务A好像读错了数据或者说读到了不存在的数据(脏读) 2.读提交。事务A不可以读没有提交的事物的数据,但是事物A本身读到的数据可以被其他事物更改。若事务A里面对一条数据读两次,则这条数据在同一个事务A内不同了(不可重复读) 3.可重复读。事务A读到的数据不可以被其他事物更改,但是...
2018-08-16 00:19:57 239
原创 [Hadoop 2.x] Yarn
Yarn是个集群资源管理系统 (资源包括CPU, IO, Memory)(也可以理解我一个分布式的操作系统,可以执行不同的application)Resource Master - 资源管理 Application Master - 任务管理Yarn把资源管理和任务管理隔离开来,减少单点(master)的负担。Application作为单独的进程运行在data node上监视appli...
2018-08-15 02:40:57 127
原创 [一些算法题的C#实现] 把一个长宽都为n的二维数组旋转90度
题目: 把一个长宽都为n的二维数组旋转90度 看到过有种讨巧的办法,复杂度低,但是感觉不知道是基于什么思路想出来的,所以我还是在这里记录下我自己的方法,也是很普通的那种。 所以,长度为N, 当前点坐标为(x, y)的话,前一点的坐标为 (y, n - 1 - x)。找到这个关系实现起来就很容易了...
2018-08-12 16:05:44 1665 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人