![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
dingcheng998
软件工程师
展开
-
python中sklearn的朴素贝叶斯方法(sklearn.naive_bayes.GaussianNB)的简单使用
#测试数据import numpy as npfeatures_train = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])labels_train = np.array([1, 1, 1, 2, 2, 2])#引入高斯朴素贝叶斯from sklearn.naive_bayes import Gaus原创 2017-02-20 19:29:12 · 18981 阅读 · 2 评论 -
在Jupyter notebook中配置和使用spark
步骤1:安装jupyter 这里安装集成环境包Anaconda下载地址及安装方法:https://www.continuum.io/downloads步骤2:下载spark http://spark.apache.org/ 解压:tar zxvf spark-2.1.0-bin-hadoop2.7.tgz步骤3:配置jupyter登录产生密码:终端输入ipython原创 2017-02-22 19:43:27 · 7846 阅读 · 0 评论 -
Spark机器学习之Pipeline(Python)
机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。 它的目标是使实用的机器学习可扩展和容易。它提供了一个高水平的工具,如: ML算法:常见的学习算法,如分类,回归,聚类和协同过滤 特征:特征提取和选择,变换,降维 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法,模型和管道 工具:线性代数,统计,数翻译 2017-03-18 21:08:06 · 6403 阅读 · 0 评论 -
Spark机器学习的主要内容
MLlib主要指南: 1、管道 2、提取,转换和选择功能 3、分类和回归 4、聚类 5、协作过滤 6、模型选择和调整 7、高级主题 MLlib:基于RDD的API:(维护中...即将被弃用) 1、数据类型 2、基本统计 3、分类和回归 4翻译 2017-03-12 21:51:10 · 445 阅读 · 0 评论 -
Spark机器学习的数据类型(Python版)
数据类型: 1、局部向量 2、标签点 3、局部矩阵 4、分布矩阵 4.1 RowMatrix 4.2 IndexedRowMatrix 4.3 CoordinateMatrix 4.4 BlockMatrix MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RD翻译 2017-03-12 21:50:15 · 1670 阅读 · 0 评论 -
Spark机器学习之特征提取、选择、转换
本节介绍了处理特征的算法,大致分为以下几组: 1、提取:从“原始”数据提取特征 2、转换:缩放,转换或修改要素 3、选择:从一组较大的要素中选择一个子集 4、局部敏感哈希(LSH):这类算法将特征变换的方面与其他算法相结合。1、特征提取1.1 TF-IDF(term frequency–inverse document frequen翻译 2017-03-18 21:10:49 · 12719 阅读 · 0 评论 -
Spark机器学习之分类与回归
本页面介绍了分类和回归的算法。 它还包括讨论特定类别的算法的部分,如线性方法,树和集合体。目录分类 Classification逻辑回归 Logistic regression二项式逻辑回归 Binomial logistic regression多项Logistic回归 Multinomial logistic regression决策树分类器 Decision tr翻译 2017-04-07 21:21:32 · 3929 阅读 · 0 评论 -
Spark机器学习之协同过滤
协作过滤通常用于推荐系统。 这些技术旨在填补用户项目关联矩阵的缺失条目。 spark.ml目前支持基于模型的协同过滤,其中用户和产品由一小组潜在因素描述,可用于预测缺失的条目。 spark.ml使用交替最小二乘法(ALS)算法来学习这些潜在因素。 spark.ml中的实现具有以下参数:1、 numBlocks是用户和项目将被分区以便并行化计算的块数(默认值为10)。2、rank是模型中潜在翻译 2017-04-12 15:18:15 · 1269 阅读 · 0 评论 -
Spark机器学习之模型选择和超参数调整
模型选择(超参数调谐)ML中的一个重要任务是模型选择,或使用数据找到给定任务的最佳模型或参数。 这也叫调音。 可以针对个体估算器(如Logistic回归)或包括多个算法,特征化和其他步骤的整个管道完成调整。 用户可以一次调整整个流水线,而不是单独调整管道中的每个元素。MLlib支持使用CrossValidator和TrainValidationSplit等工具进行模型选择。 这些工具需翻译 2017-04-12 18:36:40 · 6434 阅读 · 0 评论