- 博客(96)
- 资源 (8)
- 收藏
- 关注
原创 kerberos学习
规划服务端一般是一台机器 这里是cdh3-配置文件 krb5.conf-kdc.conf-kadm5.acl匹配这个规则的账户有所有权限 ,下文为账户格式解释:instance 一般是主机名hostname,admin/admin@ITCAST.CN 是特殊的管理员 所以是admin不是hostname-创建针对relam的database创建db后得到这4个文件-登入后台 ,在...
2022-03-22 23:11:18 2713
原创 硬链接 复制导致磁盘满
下图 权限后面的数字 是硬链接的个数硬链接 相当于 做了很多个链接到 通分区的一个文件块上 ,要更新大家一起更新, 删除一个其余的还在,互为硬链接。 硬链接 一般用来节省空间 ,减少代码对 文件存在否 和 判断创建的重复工作。 如果硬链接 被用了1w次,那么复制这个分区的大目录时 ,硬链接会被重复复制。 大致目标区 数据膨胀。du -smh <dir> 是看不到 加不到 硬链接的大小的。 需要 du -smlh 才能看到 。 进具体目录 ls -l 能看到硬...
2021-09-10 00:15:36 305
原创 sql常用索引
bitmap:(正常java int是4个byte32位 ,再bitmap里 1位bit 就可以代表一个数字,那么bitmap作为索引就可以省下32倍存储空间, 类比到数据的行 ,文档内容等 能省下更多, 行 文档的 uniq值也是需要有限避免过大的 1亿个数字3M多就可以 https://zhuanlan.zhihu.com/p/369967516) 也可以快速构造数百亿级别的数据 ,并且自然完成排序一个bitmap例子, warning: bitmap只能用在coloum取值范围不是很大的...
2021-09-06 19:14:44 352
原创 线性回归梯度下降 公式理解
解释:gradient descent算法中(红框算法), x y轴对应的是 θ0 和 θ1 这两个不是常量是x,y轴!是hypothesiis函数里 两个变量 y=θ0 + θ1x 记住!记住!记住!上面公式: step1 选择一个点Point(θ0 =digit,θ1=另一个数 ) ,如下三维图 然后不端 迭代更新θ0和θ1的值 ...
2021-08-10 22:24:27 435
原创 私有云网络架构
1.每个asw对48台物理机 的网络出口2.私有云对接客户idc网络 ,前提1 ,客户网络出口流量也要能满足流量需求客户侧网络 ,边界出口设备-> csw(端口10g或40g ,支持聚合口成逻辑口(最多单机16个,根据机器设备型号决定端口数 ,16*40g是单机上限,一般两台可load balance可主备))-> 交互机LSW(基本无限流,可选型号很多)->xgw(一台物理设备4个40g的端口,为了保险现在一般只限制一半能力 80gb,可聚合多台。集群级别的...
2021-07-20 16:59:26 2624 2
转载 sql词法分析语法分析编译(语义分析->逻辑计划)执行
参见:https://www.shangmayuan.com/a/cb3d38b1067d4ecfaa4d33cc.htmlFS是写表下面的例子就用到了上面所说的初始投影 sum(A+B) INSERT OVERWRITE TABLE Result SELECT SUM(A+B), C FROM T GROUP BY C典型的一个sql优化 shuffle removeal的场景减少不必要的Shuffle-Sort有时我们会写出这样的语句:SELEC.
2021-05-12 19:45:57 541
转载 美国印钱 为什么不会通货膨胀
https://www.sohu.com/a/422144613_104543今年为了应对新冠疫情,美国政府开启了撒钱模式(把印出来的钱直接投放),共向民众发放了3万亿美元,其中包括直接付款将发给每个家庭成员1200美元,或每个家庭最高6000美元。与此同时,美联储还宣布无限量化宽松,就是向市场投放基础货币购买美国国债,并将存款准备金率降为零。于是,很多中国老百姓觉得奇怪,为什么像津巴布韦、委内瑞拉等国家只要一印钞票,货币就快速贬值,物价就快速上涨。而美联储印了这么多钱,为什么美国的核心通胀率却还是
2021-03-12 11:32:20 2171
原创 单流网速 最大速度估算
如果经过 dns ,路由等设备,一般 mtu=1500 去掉ip 和 tcpprotocol的大小 ,可用在1460bytes左右 也就是mss max segment size。ping的结果 可见延迟在0.1ms 左右所有最大速度 就是 1460/0.1ms 大概再16m/s的样子 ,如果延迟能小 ,这个速度就能大如果ip 和 ip 之间直连 ,不知道 是否受制于mtu...
2021-01-19 21:04:15 566
原创 C C++学习提要
1. 模2 除2 ,10转2.2.数组初始化char[] str="abc"; # a b c /0 四个元素char[] str={"a","b","c"} 是3个元素3.指针类型首先指针 如果是32位 编译机 ,那指针就是 32bit 4个字节,64位 就是8字节指针为什么有类型: 在 *pointer 时,char* 类型是解1个字节 int*解四个字节...
2020-10-16 15:28:42 171
原创 如何查看 最耗cpu的进程和方法
$cat test.cppvoid longa(){ int i,j; for(i = 0; i < 900000000000; i++) j=i; //am I silly or crazy? I feel boring and desperate.}void foo2(){ int i; for(i=0 ; i < 90000000000; i++) longa();}void foo1(){ int i; for(i = 0; ...
2020-08-26 20:00:17 339
转载 网络问题调查 案例
https://www.cnblogs.com/ceshi2016/p/9068654.htmlhttps://www.sdnlab.com/17530.html
2020-06-23 16:16:45 471
转载 大数据 sql 变慢的N个理由
1. map变慢 --hashmap导致egselect ... from ( select ds ,unique_id ,pre_page from cbucdm.tmp_dwd_cn_log_app_ut_1 where ds='${bizdate}' and pre_page is not null ) a left outer join (select t.* ,length(t.page_type_rule) rule_length from cbucdm.dim_
2020-05-20 20:53:26 411
转载 磁盘 io ,系统参数说明
今天看到这篇BAIDU的文,十分不错,文章在:http://stblog.baidu-tech.com/?p=1992其中涉及到LINUX内核中的若干脏页和内核的参数,现转载如下:一、2.6内核下/proc/sys/vm/dirty_ratio这个参数控制文件系统的文件系统写缓冲区的大小,单位是百分比,表示系统内存的百分比,表示当写缓冲使用到系统内存多少的时候,开始向磁盘写出数据。增大之...
2020-04-24 15:02:52 331
原创 算法题 面试
题目一:将数组内数字进行组合,使其拼接后值最大。如输入[1,33,9],输出:9331题目二:找出两个字符串最长相同substring。 (或者改成 找出一个数组内相同 相同的最长字符串)如输入:abbcdab, bbcde输出:bbcd题目三:对1,2,3,4,5,6六个数字进行全排列,有两个条件:1.第三个数不能是4; 2.数字3和5不能相邻;请使用java打印出满足条件的所...
2020-04-09 20:09:22 223
原创 网络抓包
wireshark 中的乱序 和 重传 有什么区别 首先参看看但发现不完全一样 :https://www.cnblogs.com/strick/p/6262284.htmltcp的命令sudo tcpdump -i eth0 -nn -tt -s 2048 -X host <ipaddress>and port 9999 -w tmp3.pcap #注意该命令 是收集 本机...
2019-10-17 11:00:00 216
原创 网络问题积累
1. 应用层 通过tsar 或 sar 就可以看到 tcp retran指标 网络重传率,如果这个比例很高 基本可以断定网络有问题 ,或者应用引起的类似网络问题2. 通过tcp抓包 可以看到 是否有丢包。有个案例网络一直丢包,原因:网络使用minilvs\,上面的bond0网卡gro设置标准是on,会合并报文成大点的包。minilvs没有办法处理大包,可能出现失败。所以要在物理网卡层面...
2019-10-08 15:41:09 431
原创 load 高 除了R状态的进程 就是 D状态的进程
D状态进程 主要是因为延迟 比如CPU 延迟 内存延迟 文件系统延迟 IO 栈延迟 网络栈延迟 锁及同步原语竞争eg: 线上遇到过个问题 ,有人用cgroup 将进程使用cpu 都绑定到了0号core上,导致多核能力没用起来。 于是进程由于处理速度慢,新的处理线程 又不断产生,最终出现了堆积且同类thread handler并发达到1500。 导致load 达到1500+so...
2019-07-02 21:16:07 620
转载 java 命令执行jar 或 class main
refer to http://xinklabi.iteye.com/blog/2157591java命令执行jar包的方式大家都知道一个java应用项目可以打包成一个jar,当然你必须指定一个拥有main函数的main class作为你这个jar包的程序入口。 具体的方法是修改jar包内目录META-INF下的MANIFEST.MF文件。 比如
2017-10-20 17:49:12 1705
转载 获取文件编码
Java: How to auto-detect a file’s encodingWell, I don’t know if this is the best solution, but we can test the file against various CharsetDecoders and see if any of them reports no errors.
2017-05-17 17:34:28 611
原创 系统指标积累 TBD
1.流量(读写 一般全双工 分开):每秒钟单连接传送速度是固定,可能最多为20M 所以大于20M后 流量的算法为 并发数 乘上 20M,因为tcp协议里是根据 网络路由等情况 将包拆成合适的不用再解析的大小在网络里传送的 MSS max segment size) 。按实际测试的经验: 1M/perReq 单连接能产生的流量在18M ; 4M/perReq 单连接能产生的流量在20M ...
2017-02-21 17:30:40 802
转载 虚拟内存的理解
Linux 虚拟内存和物理内存的理解首先,让我们看下虚拟内存: 第一层理解1. 每个进程都有自己独立的4G内存空间,各个进程的内存空间具有类似的结构 2. 一个新进程建立的时候,将会建立起自己的内存空间,此进程的数据,代码等从磁盘拷贝到自己的进程空间,哪些数据在哪里,都由进程控制表中的task_struct记录,task_st
2017-01-05 22:53:05 527
原创 linux CFS进程时间片调度策略
refer to http://blog.chinaunix.net/uid-27052262-id-3239260.htmlLinux支持三种进程调度策略,分别是SCHED_FIFO 、 SCHED_RR和SCHED_NORMAL。Linux支持两种类型的进程,实时进程和普通进程。实时进程可以采用SCHED_FIFO 和SCHED_RR调度策略;普通进程采用SCHED_NOR
2016-12-07 23:27:29 1619
转载 Why is using BufferedInputStream to read a file byte by byte faster than using FileInputStream
refer to http://stackoverflow.com/questions/18600331/why-is-using-bufferedinputstream-to-read-a-file-byte-by-byte-faster-than-using-fIn FileInputStream, the method read() reads a single byte. From
2016-11-30 20:55:55 391
转载 git 各种撤销
refer to http://blog.jobbole.com/87700/任何版本控制系统的一个最有的用特性就是“撤销 (undo)”你的错误操作的能力。在 Git 里,“撤销” 蕴含了不少略有差别的功能。当你进行一次新的提交的时候,Git 会保存你代码库在那个特定时间点的快照;之后,你可以利用 Git 返回到你的项目的一个早期版本。在本篇博文里,我会讲解某些你需要“撤销”已做
2016-11-30 18:16:23 331
转载 hbase 持续写导致 无法split region
refer to http://blog.csdn.net/kirayuan/article/details/19034455最近在线上往hbase导数据,因为hbase写入能力比较强,没有太在意写的问题。让业务方进行历史数据的导入操作,中间发现一个问题,写入速度太快,并且业务数据集中到其中一个region,这个region无法split掉,处于不可用状态。这里描述一整个过程——
2016-11-09 11:45:00 1108 1
转载 TCP建立连接的三次握手,结束连接4次握手
refer to http://www.cnblogs.com/Jessy/p/3535612.html___建立连接: 理解:窗口和滑动窗口TCP的流量控制TCP使用窗口机制进行流量控制什么是窗口?连接建立时,各端分配一块缓冲区用来存储接收的数据,并将缓冲区的尺寸发送给另一端接收方发送的确认信息中包含了自己剩余的缓冲
2016-11-07 16:57:34 1021
转载 jstack 的应用举例分析
refer to http://jameswxx.iteye.com/blog/1041173一:jstackjstack命令的语法格式: jstack 。可以用jps查看java进程id。这里要注意的是:1. 不同的 JAVA虚机的线程 DUMP的创建方法和文件格式是不一样的,不同的 JVM版本, dump信息也有差别。本文中,只以 SUN的 hotspot JVM 5
2016-11-03 17:49:15 569
转载 定位 iowait 占用的进程
refer to I/O问题一直是一个比较难定位的问题,今天线上环境遇到了I/O 引起的CPU负载问题,看到了如下这篇比较好的文章,完饭后的我还在和西红柿和黄瓜在减肥的路上抗争,正好将原文翻译成中文,供广大同胞品鉴Linux has many tools available for troubleshooting some are easy to use, some are more
2016-09-26 19:15:08 3998
转载 classloader内存引出的mem leak(eg tomcat使用场景)
refer to http://www.tuicool.com/articles/eAnayu在你重新部署你的应用程序到应用服务器(比如tomcat、weblogic等)时,你是否也遇到过 java.lang.OutOfMemoryError:PermGen space error? 是否也曾一边抱怨这个应用服务器,一边重启,然后继续你的工作,同时脑子里还在想着这一定是该服务器的一个B
2016-09-26 13:16:14 623
转载 thrift connection 未关闭引起的问题
thrift connection 未关闭引起的问题(也没设置timeout),connection 占满了线程池java端 有1w多个 进程"pool-1-thread-805"#42072 prio=5 os_prio=0 tid=0x00007fc9d88a9800 nid=0x4203 runnable [0x000000005d1e7000] java.lan
2016-07-13 10:32:04 1976
database system Implementationbook_2nd
2017-01-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人