啥昵称呢-CSDN博客

原创 Spark

Spark主要有两种模式: 1. Spark Standalone - 单独模式。 2. Spark on Yarn - 运行在Yarn上，可以与其他计算框架共享资源 1) Yarn Client Driver在任务提交机上运行 bash spark-shell 启动spark-core(scala)的交互模式。数据Yarn-Client模式 2) Yar...

2018-08-26 21:44:38 194

原创 SQL Server AlwaysOn (高可用)

前提: 要搭建再Windows Cluster上高可用机制优点：除了故障转移之外，还可以负载均衡(load balance)，主副本更新，辅助副本只读。可用性模式分为同步提交和异步提交同步: 主副本需要等待同步辅助副本的日志保存到磁盘，然后同步提交，有延迟自动故障转移和计划的手动古装转移只能用于同步的副本异步:主副本不需要等待辅助副本的的日志保存到磁盘异步副本只能...

2018-08-24 00:25:03 1133

原创 20180823 先爱自己

两年的时间，感觉自己还没有沉到谷底，或者说还没有转机。感觉有时候只能靠自己。怎么做呢，我也不是很清楚。走出来的过程也许就是个重拾自信的过程，自信来的没那么容易而且也许也需要些运气。所以，在这里提醒自己 1. 不要太在意别人的眼光，尤其是那些并不是和自己太干的人的。唯一要在意并且感激的是那些曾经工作中帮助过我成长的人。 2. 如果实质上改变不了什么，就从自己的克制力开始。 1）早点...

2018-08-23 23:04:02 158

原创求最长回文子串

“abcbc” =&amp;gt; bcb 或 cbc = 3 “abcbe” =&amp;gt; bcb = 3遍历每个字符往两边扩展 static int longestPalindrome(string input) { int maxLength = -1; for (int i = 0; i &amp;lt; inpu...

2018-08-23 17:54:31 162

原创推荐算法的简单认识

发掘长尾，推荐相对关注度低的东西基于流行度的算法-简单粗暴，根据pv，uv热度来推荐协同过滤算法 1) 基于用户 - 根据用户对物品的打分情况找出相似度高的用户，推荐评价高却没有被发现的物品。用户相似度读使用cos算余璇，夹角越小越相似。1) 基于物品很多人喜欢物品A, 这些人中相当多的人又很喜欢物品B，那么A和B的相似度高。这样，浏览过A的用户，如果他没浏览过B，可以推荐B...

2018-08-16 23:25:36 1058

原创 RDD

弹性数据集，就是个逻辑上的数据集算子Transformation （Lazy） map flatMap groupByKey reduceByKey psersist cacheAction: Reduce collect saveAsTextFile窄依赖: 不用做shuffle 宽依赖: 需要做shufflestage划分: 遇到宽依赖shuffle就...

2018-08-16 22:11:14 144

原创 Hive

架构 Hive Driver 1.解释 - 分析query 2.编译 3.优化 4. 执行器要与metastore进行通讯– explode select a, explode(b) as bb from tbl;– lateral view select a, b from tbl lateral view expode(splict(b)) as b;...

2018-08-16 20:25:10 177

原创 [一些算法题的C#实现] 求最大子序列

求最大子序列, 序列未排序如: {11, 10, 2, 3, 1, 5, 7, 8, 9 } =&amp;gt; 5 (7, 8, 9, 10, 11)除了对数组排序后在进行查找之外，还可以同通过HashMap Hash static int GetLongestSequence1(int[] arr) { int maxLength = 0; ...

2018-08-16 20:24:14 186

原创 [Hadoop 1.x] MapReduce - 1

Job Tracker 接收实并例化任务, 调度任务到节点上运行监控任务运行监控节点状态-Task Tracker 1. 通过心跳通知当前节点的健康状态 2. 每次心跳包含map reduce的任务数，以及运行任务的详细信息 3. 若Slave空闲，每次心跳会询问Job Tracker是否有新的任务做 4. 通过线程池多线程处理心跳和客户请求 5. 每个工作节点(data ...

2018-08-16 20:23:53 498

原创 HDFS原理

block默认大小128M dfs.block.size=128MB 保存多个副本由Name Node, Secondary Name Node和Data Node组成Name Node 存储元信息 1. 文件，文件目录的层级关系 2. 文件，文件目录的权限 3. 文件由哪些块组成 4. block和data node之间的映射元数据保存在内存中太多的小文件会造成 b...

2018-08-16 20:23:30 135

读未提交。事务A读事务B未提交的操作。若事务B之后回滚，或者继续更新，则事务B最后提交的和事务A读到的不一致，导致事务A好像读错了数据或者说读到了不存在的数据(脏读) 2.读提交。事务A不可以读没有提交的事物的数据，但是事物A本身读到的数据可以被其他事物更改。若事务A里面对一条数据读两次，则这条数据在同一个事务A内不同了(不可重复读) 3.可重复读。事务A读到的数据不可以被其他事物更改，但是...

2018-08-16 00:19:57 239

原创 [Hadoop 2.x] Yarn

Yarn是个集群资源管理系统（资源包括CPU, IO, Memory）(也可以理解我一个分布式的操作系统，可以执行不同的application)Resource Master - 资源管理 Application Master - 任务管理Yarn把资源管理和任务管理隔离开来，减少单点(master)的负担。Application作为单独的进程运行在data node上监视appli...

2018-08-15 02:40:57 127

原创 [一些算法题的C#实现] 把一个长宽都为n的二维数组旋转90度

题目: 把一个长宽都为n的二维数组旋转90度看到过有种讨巧的办法，复杂度低，但是感觉不知道是基于什么思路想出来的，所以我还是在这里记录下我自己的方法，也是很普通的那种。所以，长度为N, 当前点坐标为(x, y)的话，前一点的坐标为 (y, n - 1 - x)。找到这个关系实现起来就很容易了...

2018-08-12 16:05:44 1665 1

jiawenguo123的博客