自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器学习算法

大数据、机器学习学习笔记

  • 博客(18)
  • 收藏
  • 关注

原创 DecisionTree决策树算法及参数详解+实例+graphviz生成决策树

DecisionTree决策树算法及参数详解+实例+graphviz生成决策树sklearn随机森林sklearn集合算法库sklearn-Bagging自助聚合算法sklearn-Boosting正向激励算法sklearn-ExtraTrees算法

2018-04-07 20:36:59 71527 16

原创 Spark的基本架构

http://ihoge.cn/2018/IntroductionToSpark.htmlSpark的基本架构当单机没有足够的能力和资源来执行大量信息的计算(或者低延迟计算),这时就需要一个集群或一组机器将许多机器的资源集中在一起,使我们可以使用全部累积的在一起的计算和存储资源。现在只有一组机器不够强大,你需要一个框架来协调他们之间的工作。 Spark是一种工具,可以管理和协调跨计算机...

2018-04-18 11:06:58 1220

原创 免安装免配置 还免费的Spark 集群 --Databrickes Spark Clould

http://ihoge.cn/2018/Databrickes.html摘要:本文带你畅游Databrickes Spark Clould云服务。小白迅速上手大数据Spark开发环境,从此告别集群Bug的烦恼,彻底解放物理机负担让你随时随地想Run就Run��。目录:Databrickes是个啥?Databrickes注册Databrickes快速入门其他进阶神操作...

2018-04-16 09:45:10 5574

原创 弹性式分布数据集RDD——Pyspark基础 (二)

连载中:http://ihoge.cn/tags/pyspark/title: 弹性式分布数据集RDD——Pyspark基础 (二) date: 2018-04-15 17:59:21 comments: true categories: - Spark tags: - pysparkRDD的内部运行方式RDD不仅是一组不可变的JVM(Java虚拟机)对象的分布集,...

2018-04-15 18:24:47 1427

转载 Spark运行原理剖析

http://ihoge.cn/2018/Spark%20Scheduler.htmlApache Spark是一个开源的,强大的分布式查询和处理引擎。它提供MapReduce的灵活性和可扩展性,但速度明显更高。 Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个...

2018-04-15 18:22:46 847

原创 SparkSQL DataFrame进阶篇

SparkSQL DataFrame基础篇 SparkSQL DataFrame进阶篇1.创建SparkSession【2.0】和 SQLContext实例【1.x】1.创建SparkSession【2.0】///spark2.0后,用sparksession代替sparkcontext和sqlcontext的创建val spark= SparkSession.builder...

2018-04-14 18:40:01 581

原创 SparkSQL DataFrame基础篇

SparkSQL DataFrame基础篇 SparkSQL DataFrame进阶篇SparkSQL DataFrame基础篇Spark 2.2及以后的SparkSession替换了Spark以前版本中的SparkContext和SQLContext,为Spark集群提供了唯一的入口点。val spark =SparkSession.builder(). ...

2018-04-14 18:36:19 332

原创 hive集成spark和mysql

参考:http://ihoge.cn/2018/HiveSpark.html一、Hive安装1.Hive简介​ Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。​ Hive是一个可以提供有效的、合理的且直观的组织和使用...

2018-04-14 00:58:27 1633

原创 使用aconda3-5.1.0(Python3.6.4) 搭建pyspark远程部署

参考:http://ihoge.cn/2018/anacondaPyspark.html前言首次安装的环境搭配是这样的: jdk8 hadoop2.6.5 spark2.1 scala2.12.4 Anaconda3-5.1.0 一连串的报错让人惊喜无限,尽管反复调整配置始终无法解决。 坑了一整天后最后最终发现是版本不兼容!!再次提醒自己一定要...

2018-04-14 00:56:27 3238 1

原创 数据挖掘的9大成熟技术和应用

http://ihoge.cn/2018/DataMining.html数据挖掘的9大成熟技术和应用基于数据挖掘的9大主要成熟技术以及在数据化运营中的主要应用: 1、决策树 2、神经网络 3、回归 4、关联规则 5、聚类 6、贝叶斯分类 7、支持向量机 8、主成分分析 9、假设检验1 决策树决策树(Decision Tree)是一种非常成熟的、普遍采用的数据挖...

2018-04-11 01:40:43 28210 1

原创 PCA主成分分析+SVM实现人脸识别

原文地址: http://ihoge.cn/2018/PCA+SVM人脸识别.html加载数据这里使用的测试数据共包含40位人员照片,每个人10张照片。也可登陆http://www.cl.cam.ac.uk/research/dtg/attarchive/facesataglance.html 查看400张照片的缩略图。import time import loggingfr...

2018-04-10 01:07:11 7163 2

原创 朴素贝叶斯--文档分类

原文:http://ihoge.cn/2018/MultinomialNB.html把文档转换成向量TF-IDF是一种统计方法,用以评估一个词语对于一份文档的重要程度。TF表示词频, 即:词语在一片文档中出现的次数 ÷ 词语总数IDF表示一个词的逆向文档频率指数, 即:对(总文档数目÷包含该词语的文档的数目)的商取对数 log(m/mi−in−m)log(m/mi−in−m)lo...

2018-04-09 19:31:40 449

原创 SVM支持向量机绘图

原文: http://ihoge.cn/2018/SVM绘图.html%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npclass1 = np.array([[1, 1], [1, 3], [2, 1], [1, 2], [2, 2]])class2 = np.array([[4, 4], [5...

2018-04-08 23:33:47 5502

原创 sklearn集合算法预测泰坦尼克号幸存者

原文: http://ihoge.cn/2018/sklearn-ensemble.html随机森林分类预测泰坦尼尼克号幸存者import pandas as pdimport numpy as npdef read_dataset(fname): data = pd.read_csv(fname, index_col=0) data.drop(['Name',...

2018-04-08 23:33:00 2177

原创 支持向量机SVC

原文:http://ihoge.cn/2018/支持向量机SVC.html支持向量机(support vector machine)是一种分类算法,但是也可以做回归,根据输入的数据不同可做不同的模型(若输入标签为连续值则做回归,若输入标签为分类值则用SVC()做分类)。通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好...

2018-04-08 23:30:26 57267 6

原创 Scala编程指南

1.scala简介2004年,martin ordersky发明,javac的编译器,后来spark,kafka应用广泛,twitter应用推广。它具备面向对象和函数式编程的特点。官网:www.scala-lang.org,最近版本2.12.5,我们用的是2.10.42.环境安装1) windows a) 安装jdk-7u55-windows-x64.exe b...

2018-04-08 15:28:57 550

原创 sklearn线性回归详解

图片若未能正常显示,点击下面链接: http://ihoge.cn/2018/Logistic-regression.html在线性回归中,我们想要建立一个模型,来拟合一个因变量 y 与一个或多个独立自变量(预测变量) x 之间的关系。给定:数据集 {(x(1),y(1)),...,(x(m),y(m))}{(x(1),y(1)),...,(x(m),y(m))}\left\{ \...

2018-04-07 20:58:48 7296

原创 SVM支持向量机原理及核函数

SVM支持向量机原理详解及核函数核函数的选择分割超平面:支持向量:间距:SVM算法的原理就是找到一个分割超平面,它能把数据正确的分类,并且间距最大!

2018-04-07 20:21:18 31956 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除