- 博客(4)
- 资源 (2)
- 收藏
- 关注
转载 信息增益
关于对信息、熵、信息增益是信息论里的概念,是对数据处理的量化,这几个概念主要是在决策树里用到的概念,因为在利用特征来分类的时候会对特征选取顺序的选择,这几个概念比较抽象,我也花了好长时间去理解(自己认为的理解),废话不多说,接下来开始对这几个概念解释,防止自己忘记的同时,望对其他人有个借鉴的作用,如有错误还请指出。1、信息这个是熵和信息增益的基础概念,我觉得对于这个概念的理解更应该把他认为是一用
2017-11-09 15:06:43 1770 1
原创 top命令详解
最近在docker(宿主机是centos虚拟机)里安装gitlab,发现随着时间的运行,虚拟机的内存持续走高,运行几个小时之后内存已经爆掉了,putty远程处理于假死状态。这个时候就需要查看内存进程,发现有10多个ruby进程在运行,最终定位到docker容器的问题。使用到的指令:查看内存使用情况 $ free -m$ top //shift+m按内存占用比排序清理内存(效果不是很理想,
2017-11-01 11:29:14 1000
原创 看了之后不再迷糊-Spark多种运行模式
看了之后不再迷糊-Spark多种运行模式转自: http://www.jianshu.com/p/65a3476757a5 早就想写这章了,一直懒得动笔,不过还好,总算静下心来完成了。刚接触Spark时,很希望能对它的运行方式有个直观的了解,而Spark同时支持多种运行模式,官网和书籍中对他们的区别所说不详,尤其是模式之间是否有关联、启动的JVM进程是否有区别、启动的JVM进程的
2017-10-27 13:53:48 427
原创 管理员必备的20个Linux系统监控工具
需要监控Linux服务器系统性能吗?尝试下面这些系统内置或附件的工具吧。大多数Linux发行版本都装备了大量的监控工具。这些工具提供了能用作取得相关信息和系统活动的量度指标。你能使用这些工具发现造成性能问题可能原因。此次讨论到的工具只是分析和调试服务器下面问题时最基本工具中的一部分。 1.找出瓶颈 2.硬盘(存储)瓶颈 3.CPU及内存瓶颈 4.网络瓶颈 1: top - 进程活
2017-03-21 23:51:48 484
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人