将登太行雪满山

将登太行雪满山

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

java_多线程简介

综述多线程是非常重要的内容,同时又非常深入,这里对以前了解的内容做了一下总结,后续有机会还要继续深入的学习。进程和线程 进程 进程有独立的地址空间,占据资源 任一时刻,CPU总是运行一个进程,其他进程处于非运行状态。 线程 线程只是一个进程中的不同执行路径,线程有自己的堆栈和局部变量,但线程之...

2017-06-18 23:34:05

阅读数 144

评论数 0

Linux_shell(二)

变量 环境变量(局部变量) 所有的场景都能用 /etc/profile文件 source一下 局部变量 只能在自己的shell函数或脚本中使用 变量定义定义变量的三种方式: 直接定义 直接写。输出的时候是什么就是什么 单引号 输出的时候完全按照内容输出,不解析任何符号 双引号 输出的...

2017-05-20 12:09:14

阅读数 200

评论数 0

机器学习之特征工程简介

简介特征工程非常重要。对于模型的效果起大了极大的作用。实际开发中,大部分的时间都花费在特征工程上面。特征工程最重要的是对具体业务的深刻理解。减少数据存储和输入的代价,降低数据的维度 发现更多深入的特征,提升准确率。特征工程和降维,是处理高维度数据的两大主要手段。 特征选择(选)去掉无关特征,只保...

2017-05-20 12:07:58

阅读数 409

评论数 0

机器学习之回归简介

线性回归综述 目的是找到一个映射,最能反映二者之间的关系。用来预测当有新的样本输入的时候,输入的结果 线性回归处理的变量必须是连续的。 欠拟合&过拟合 过拟合跟欠拟合是ml算法表现差的两大原因 欠拟合:样本的容量不够引起的 过拟合:如果有特别多的特征,曲线可以拟合的很好,但是丧失了一...

2017-05-20 12:07:01

阅读数 207

评论数 0

scala(二)

数组不可变数组// 定义数组的两种方式 val ar1 = new Array[数组类型](数组大小) // val ar2 = Array[数组类型](具体内容) val ar2 = Array[String]("a","bc","def&quo...

2017-05-11 13:04:46

阅读数 140

评论数 0

scala(一)

综述学习scala:静态语言,jvm - 面向对象和函数式编程相结合 - 代码简洁效率高(数量级),java相比之下太复杂 - scala是基于java的,可以无缝调用java代码中的方法/库等 - 有助于理解spark的核心,一些scala有的spark接口,java中不一定有 ...

2017-05-07 17:17:50

阅读数 325

评论数 0

linux_awk(二)

综述每个程序都是一个或多个模式动作序列。每个模式一次匹配文本的每一行。直到输入完毕。 都是用 符号操作。shell中的 符号操作。shell中的后有{}号,awk一般不使用{}号。语法使用 模式-动作 语句 ex:awk ' $3 > 0 {print $1 $2 $3} {FS= &q...

2017-05-07 17:16:37

阅读数 327

评论数 0

linux_awk(一)

综述是linux的shell三剑客之一: grep 查找 sed 编辑 awk 数据分析 awk本身也是一门语言,是linxu中处理字符文本的强大工具,结合sed,grep能产生强大的效果。 简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。灵活性...

2017-05-07 17:16:05

阅读数 390

评论数 0

linux_grepbak

综述grep是Linux命令行下常用于查找过滤文本文件内容的命令,查找的是文本文件。 通过grep,结合使用正则表达式,可以灵活的查找一个字符串。无论是在一个文本文件还是在整个目录中,都能方便的查找。语法grep para "model" file/dir使用参数-i 忽...

2017-05-07 17:15:17

阅读数 395

评论数 0

linux_shell(一)

综述shell是一个命令解释器,在os的最外层,负责直接和用户对话。 交互式的(实时反馈) 非交互式的(脚本方式) shell脚本:流程控制,变量,命令 最后 chmod一下。 ./xx.sh运行脚本很擅长处理纯文本类型的数据。 bashshell,POSIXshell等。弱类型语言:(类似p...

2017-05-06 13:49:11

阅读数 609

评论数 0

机器学习之集成学习简介

综述集体学习: 将不同的分类器组合起来。 先产生个体学习,在根据多个个体学习完成学习任务。 每个个体学习可以采用的算法可以不同集成学习可能有不同的提升/不变/降低 这要求学习器: 单个个体不能太差 学习器之间要有差异/多样性 理论上来说,如果单个学习器之间相互独立,当个数很多的时候,集成学...

2017-05-06 11:56:59

阅读数 454

评论数 0

机器学习之SVM简介

综述在深度学习(2012)出现之前,SVM是ml算法中最优秀的算法。 支持向量机,本质是个分类器。核技巧+间隔最大 当间隔最大的时候,他的泛化能力是最强的,鲁棒性最高。 基于最大间隔分割数据。分割的超平面有无数个,找的是最大化的 寻找一个能把样本分割开的超平面(分割超平面)Max Margin...

2017-04-26 12:51:26

阅读数 219

评论数 0

机器学习之K近邻简介

描述KNN是常见的监督学习算法,输入是实例的特征向量,输出是实例对应的类别。 给定测试样本,基于某种距离计算方法,计算出与其距离最近的K个训练样本,根据多数表决方法判定属于哪个类别。典型的懒惰学习算法,不具有显示的学习过程。在接受数据时,不做处理,当真正计算的时候才按照算法流程走。 三大要素:...

2017-04-26 12:48:57

阅读数 152

评论数 0

机器学习之Kmeans

聚类非监督学习,输入的数据没有标签,通过学习找出数据内在的性质和规律。 两个基本问题来衡量聚类效果的好坏:性能度量最佳的效果是簇内相似度高,簇间相似度低(类似高内聚低耦合) 簇间度量(越大越好)Jrccard系数 FM系数 Rand系数 簇内度量DB系数(越小越好) Dumn系数(越大越好) 距...

2017-04-14 15:24:11

阅读数 294

评论数 0

机器学习之朴素贝叶斯简介

综述适用于标称型数据的监督学习方法。NB本质是个分类问题,根据样例属于哪个类的概率的大小判断样本属于哪个类。 朴素贝叶斯有两个基本条件:朴素和贝叶斯定理朴素:朴素指的是特征之间的相互独立性假设,就是特征1和特征2之间发生的概率相互不受影响。 特征1发生与否和特征2无关。贝叶斯定理:算法流程NB...

2017-04-09 19:37:00

阅读数 890

评论数 0

机器学习综述

基本概念机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 基本目标是学习一个x->y的函数...

2017-04-05 21:23:08

阅读数 569

评论数 0

机器学习之决策树简介

综述 一种非常常用的机器学习算法,属于监督学习,可以用于分类和回归。 每个内部节点表示在一个属性上的测试,每个分支代表当前测试的输出。每个叶节点代表类别。 根据属性的值分类。得到的新节点是根据属性分后的实例 当新节点内,所有的实例都是同一个标记的时候,停止分类 自顶向下,基本思想是以信息熵为度量,...

2017-04-05 20:33:54

阅读数 277

评论数 0

VIM简介

综述vim是linux下一款非常强大的文本编辑器,每位程序员都应该熟练掌握。当然工具的目的是提高生产效率,对于vim的使用不必强制,最重要的还是适合自己 引用块内容 下面是vim键盘图。 命令模式 在vim刚刚启动的时候,进入的就是命令模式 按i/a进入,可以正常输入和编辑文本 插入模式 ...

2017-04-05 12:44:55

阅读数 820

评论数 0

spark之RDD

RDD概念与特性RDD是spark最重要的抽象。spark统一建立在抽象的RDD之上。设计一个通用的编程抽象,使得spark可以应对各种场合的大数据情景。RDD模型将不同的组件融合到一起,选用其中的几个/所有,可以应付各种不同的场景。解决了mr的缺陷 1. 弹性分布式数据集Resilient ...

2017-03-27 15:20:48

阅读数 3414

评论数 3

数据库与SQL语言

数据库综述 SQL语言:结构化查询语言,用于操作数据库 关系型数据库:一个二维表格,易于操作,容易理解,但是在操作海量数据的时候效率低。ACID特性。 非关系型数据库:以键值对存储,结构不固定。不局限于固定的结构。 kv数据库 redis等 文档数据库 mongodb等 分布式数据库 hbase...

2017-03-26 11:19:10

阅读数 383

评论数 0

提示
确定要删除当前文章?
取消 删除