机器学习算法

大数据、机器学习学习笔记

DecisionTree决策树算法及参数详解+实例+graphviz生成决策树

DecisionTree决策树算法及参数详解+实例+graphviz生成决策树 sklearn随机森林 sklearn集合算法库 sklearn-Bagging自助聚合算法 sklearn-Boosting正向激励算法 sklearn-ExtraTrees算法

2018-04-07 20:36:59

阅读数 7703

评论数 5

《Pyflink》Flink集群安装,Python+Flink调研

Flink集群安装,Python+Flink调研 Flink集群部署 下载对应版本安装包:https://flink.apache.org/downloads.html 实验环境为hadoop2.7, scala2.11 所以下载flink-1.7.1-bin-hadoop27-scala_2...

2019-01-29 19:25:16

阅读数 87

评论数 1

巧用Hive自带函数进行多字段分别去重计数统计

巧用Hive自带函数进行多字段分别去重计数统计 1-group by 和 distinct 大前提:大表统计能使用group by就不要使用distinct!! 尤其是在数据量非常大的时候,distinct会将所有的统计信息加载到一个reducer里取执行,这就是所谓的数据倾斜。而g...

2018-11-12 14:58:52

阅读数 205

评论数 0

Boosting集合算法详解(一)

本文是关于聚类算法的第二篇K-means,感兴趣的同学可以前往http://ihoge.cn/2018/clustering.html 阅读完整版。 二、K-means 1. 算法步骤 <1> 选择KKK个点作为初始质心 &...

2018-05-22 22:24:00

阅读数 467

评论数 0

提升树算法总结(一)

本文是综合了之前的以往多个笔记汇总而成,内容较长。感兴趣的建议收藏用到时随时翻阅内容包含: 若有遗漏错误之处请反馈修改,感激不尽 一、Boosting基本概念 二、前向分步加法模型 1. 加法模型 2. 前向分步算法 三、AdaBoost 1. 算法解析 2. ...

2018-05-22 22:13:34

阅读数 549

评论数 0

提升方法之AdaBoost算法

原文地址:http://ihoge.cn/2018/adaboost.html 转载注明出处。 AdaBoost提升树学习笔记 作为非数学专业出身看到密密麻麻的数学公式刚开始真的是非常头疼。算法的物理逻辑的时候尚能理解,但是涉及到具体的数学公式实现就开始懵逼了:为什么要用这个公式,这个公式是...

2018-05-18 14:39:33

阅读数 113

评论数 0

牛顿法、拟牛顿法、高斯-牛顿法、共轭梯度法推导总结

原文:http://ihoge.cn/2018/newton1.html 前言: 线性最小二乘问题,我们可以通过理论推导可以得到其解析解,但是对于非线性最小二乘问题,则需要依赖迭代优化的方法,牛顿算法是解决非线性最优的常见算法之一。 最近整理了几篇关于牛顿法及其优化算法都不甚满意,网...

2018-05-16 21:20:40

阅读数 1173

评论数 0

梯度下降法、随机梯度下降法、批量梯度下降法及牛顿法、拟牛顿法、共轭梯度法

http://ihoge.cn/2018/GradientDescent.html http://ihoge.cn/2018/Newton.html 引言 李航老师在《统计学习方法》中将机器学习的三要素总结为:模型、策略和算法。其大致含义如下: 模型:其实就是机器学习训练的过程中所要学习的...

2018-05-14 14:57:03

阅读数 603

评论数 0

逻辑回归算法原理

http://ihoge.cn/2018/LR.html 逻辑回归模型 逻辑回归也被称为对数几率回归,算法名虽然叫做逻辑回归,但是该算法是分类算法,个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。 逻辑回归模型是一种分类模型,用条件概率分布的形式表示 P(Y|X)P(Y|X)P...

2018-05-13 21:26:25

阅读数 1773

评论数 0

Spark ML - 聚类算法

http://ihoge.cn/2018/ML2.html Spark ML - 聚类算法 1.KMeans快速聚类 首先到UR需要的包: import org.apache.spark.ml.clustering.{KMeans,KMeansModel} import org...

2018-05-06 01:28:33

阅读数 188

评论数 0

Spark ML - 协同过滤

http://ihoge.cn/2018/ML1.html 协同过滤算法 ​ 获取spark自带的MovieLens数据集,其中每行包含一个用户、一个电影、一个该用户对该电影的评分以及时间戳。我们使用默认的ALS.train() 方法,即显性反馈(默认implicitPrefs 为fals...

2018-05-06 01:26:14

阅读数 176

评论数 1

Spark的基本架构

http://ihoge.cn/2018/IntroductionToSpark.html Spark的基本架构 当单机没有足够的能力和资源来执行大量信息的计算(或者低延迟计算),这时就需要一个集群或一组机器将许多机器的资源集中在一起,使我们可以使用全部累积的在一起的计算和存储资源。现在只...

2018-04-18 11:06:58

阅读数 214

评论数 0

免安装免配置 还免费的Spark 集群 --Databrickes Spark Clould

http://ihoge.cn/2018/Databrickes.html 摘要:本文带你畅游Databrickes Spark Clould云服务。小白迅速上手大数据Spark开发环境,从此告别集群Bug的烦恼,彻底解放物理机负担让你随时随地想Run就Run��。 目录: Datab...

2018-04-16 09:45:10

阅读数 291

评论数 0

弹性式分布数据集RDD——Pyspark基础 (二)

连载中:http://ihoge.cn/tags/pyspark/ title: 弹性式分布数据集RDD——Pyspark基础 (二) date: 2018-04-15 17:59:21 comments: true categories: - Spark tags: - p...

2018-04-15 18:24:47

阅读数 109

评论数 0

Spark运行原理剖析

http://ihoge.cn/2018/Spark%20Scheduler.html Apache Spark是一个开源的,强大的分布式查询和处理引擎。它提供MapReduce的灵活性和可扩展性,但速度明显更高。 Spark的核心是根据RDD来实现的,Spark Scheduler则为S...

2018-04-15 18:22:46

阅读数 383

评论数 0

SparkSQL DataFrame进阶篇

SparkSQL DataFrame基础篇 SparkSQL DataFrame进阶篇 1.创建SparkSession【2.0】和 SQLContext实例【1.x】 1.创建SparkSession【2.0】 ///spark2.0后,用sparksession代替sparkco...

2018-04-14 18:40:01

阅读数 107

评论数 0

SparkSQL DataFrame基础篇

SparkSQL DataFrame基础篇 SparkSQL DataFrame进阶篇 SparkSQL DataFrame基础篇 Spark 2.2及以后的SparkSession替换了Spark以前版本中的SparkContext和SQLContext,为Spark集群提供了唯一...

2018-04-14 18:36:19

阅读数 57

评论数 0

hive集成spark和mysql

参考:http://ihoge.cn/2018/HiveSpark.html 一、Hive安装 1.Hive简介 ​ Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转...

2018-04-14 00:58:27

阅读数 881

评论数 0

使用aconda3-5.1.0(Python3.6.4) 搭建pyspark远程部署

参考:http://ihoge.cn/2018/anacondaPyspark.html 前言 首次安装的环境搭配是这样的: jdk8 hadoop2.6.5 spark2.1 scala2.12.4 Anaconda3-5.1.0 一连串的报错让人惊喜无限,尽...

2018-04-14 00:56:27

阅读数 1136

评论数 0

数据挖掘的9大成熟技术和应用

http://ihoge.cn/2018/DataMining.html 数据挖掘的9大成熟技术和应用 基于数据挖掘的9大主要成熟技术以及在数据化运营中的主要应用: 1、决策树 2、神经网络 3、回归 4、关联规则 5、聚类 6、贝叶斯分类 7、支持向量机 8、主成分分析 9...

2018-04-11 01:40:43

阅读数 935

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭