机器学习
dingcheng998
软件工程师
展开
-
python中sklearn的朴素贝叶斯方法(sklearn.naive_bayes.GaussianNB)的简单使用
#测试数据import numpy as npfeatures_train = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])labels_train = np.array([1, 1, 1, 2, 2, 2])#引入高斯朴素贝叶斯from sklearn.naive_bayes import Gaus原创 2017-02-20 19:29:12 · 19056 阅读 · 2 评论 -
Python机器学习库SKLearn分类算法之朴素贝叶斯
参考地址:http://scikit-learn.org/stable/modules/naive_bayes.htmlhttp://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNBimport numpy as np原创 2017-04-28 21:38:15 · 1691 阅读 · 0 评论 -
Spark机器学习之模型选择和超参数调整
模型选择(超参数调谐)ML中的一个重要任务是模型选择,或使用数据找到给定任务的最佳模型或参数。 这也叫调音。 可以针对个体估算器(如Logistic回归)或包括多个算法,特征化和其他步骤的整个管道完成调整。 用户可以一次调整整个流水线,而不是单独调整管道中的每个元素。MLlib支持使用CrossValidator和TrainValidationSplit等工具进行模型选择。 这些工具需翻译 2017-04-12 18:36:40 · 6481 阅读 · 0 评论 -
Spark机器学习之协同过滤
协作过滤通常用于推荐系统。 这些技术旨在填补用户项目关联矩阵的缺失条目。 spark.ml目前支持基于模型的协同过滤,其中用户和产品由一小组潜在因素描述,可用于预测缺失的条目。 spark.ml使用交替最小二乘法(ALS)算法来学习这些潜在因素。 spark.ml中的实现具有以下参数:1、 numBlocks是用户和项目将被分区以便并行化计算的块数(默认值为10)。2、rank是模型中潜在翻译 2017-04-12 15:18:15 · 1300 阅读 · 0 评论 -
Python机器学习库SKLearn:监督学习之广义线性模型
以下是用于回归的一组方法,其中预期目标值为输入变量的线性组合,在数学概念中,假设{y^}是预测值。其中,向量 w = (w_1,..., w_p) 作为一个 coef_ (系数)and w_0 作为 intercept_(截距)。1.1.1 普通最小二乘法(Ordinary Least Squares)LinearRegression是具有系数w =(w_1,...,w_p翻译 2017-03-16 21:15:30 · 2920 阅读 · 0 评论 -
Spark机器学习之分类与回归
本页面介绍了分类和回归的算法。 它还包括讨论特定类别的算法的部分,如线性方法,树和集合体。目录分类 Classification逻辑回归 Logistic regression二项式逻辑回归 Binomial logistic regression多项Logistic回归 Multinomial logistic regression决策树分类器 Decision tr翻译 2017-04-07 21:21:32 · 3972 阅读 · 0 评论 -
Python机器学习库SKLearn:数据集转换之特征提取
特征提取:sklearn.feature_extraction模块可以用于从由诸如文本和图像的格式组成的数据集中提取机器学习算法支持的格式的特征。注意:特征提取与特征选择非常不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。 后者是应用于这些特征的机器学习技术。4.2.1 从词典中加载特征类DictVectorizer可用于将表示为标准Python di翻译 2017-03-13 20:35:40 · 21483 阅读 · 0 评论 -
Python机器学习库SKLearn:数据集转换之预处理数据
"""数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据。包含特征提取和标准化。 原因:数据集的标准化(服从均值为0方差为1的标准正态分布(高斯分布))是大多数机器学习算法的常见要求。 如果原始数据不服从高斯分布,在预测时表现可能不好。在实践中,我们经常进行标准化(z-score 特征减去均值/标准差)。"""#数据预处理from翻译 2017-03-12 21:47:59 · 14749 阅读 · 0 评论 -
Python机器学习库SKLearn包含的内容(目录)
#Sklearn学习"""一、机器学习主要分类: 1、预处理 2、模型选择 3、分类 4、回归 5、聚类 6、降维 机器学习主要包含内容: 1、监督学习 1.1 广义线性模型(Generalized Linear Models) 1.2 线性二次判别分析(Linear翻译 2017-03-12 21:42:48 · 2989 阅读 · 0 评论 -
Python机器学习库SKLearn:数据集转换之管道和特征
4.1 管道和特征:组合估计量4.1.1 管道:链接估计管道可以用于将多个估计器链接成一个。 这是有用的,因为在处理数据中经常有固定的步骤序列,例如特征选择,归一化和分类。 管道在这里有两个目的:方便:您只需调用fit和预测一次您的数据,以适应一个完整的估计量序列。联合参数选择:可以一次性在管线中的所有估计量的参数上进行网格搜索。流水线中的所有估计器,除了最后一个,必须是变翻译 2017-03-13 15:32:35 · 3208 阅读 · 0 评论 -
Spark机器学习之特征提取、选择、转换
本节介绍了处理特征的算法,大致分为以下几组: 1、提取:从“原始”数据提取特征 2、转换:缩放,转换或修改要素 3、选择:从一组较大的要素中选择一个子集 4、局部敏感哈希(LSH):这类算法将特征变换的方面与其他算法相结合。1、特征提取1.1 TF-IDF(term frequency–inverse document frequen翻译 2017-03-18 21:10:49 · 12772 阅读 · 0 评论 -
Spark机器学习的数据类型(Python版)
数据类型: 1、局部向量 2、标签点 3、局部矩阵 4、分布矩阵 4.1 RowMatrix 4.2 IndexedRowMatrix 4.3 CoordinateMatrix 4.4 BlockMatrix MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RD翻译 2017-03-12 21:50:15 · 1719 阅读 · 0 评论 -
Spark机器学习的主要内容
MLlib主要指南: 1、管道 2、提取,转换和选择功能 3、分类和回归 4、聚类 5、协作过滤 6、模型选择和调整 7、高级主题 MLlib:基于RDD的API:(维护中...即将被弃用) 1、数据类型 2、基本统计 3、分类和回归 4翻译 2017-03-12 21:51:10 · 462 阅读 · 0 评论 -
Spark机器学习之Pipeline(Python)
机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。 它的目标是使实用的机器学习可扩展和容易。它提供了一个高水平的工具,如: ML算法:常见的学习算法,如分类,回归,聚类和协同过滤 特征:特征提取和选择,变换,降维 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法,模型和管道 工具:线性代数,统计,数翻译 2017-03-18 21:08:06 · 6453 阅读 · 0 评论 -
python中sklearn的支持向量机(Support Vector Machines)的说明地址
来源:http://scikit-learn.org/stable/modules/svm.html#support-vector-machines原创 2017-02-21 21:43:43 · 952 阅读 · 0 评论 -
在Jupyter notebook中配置和使用spark
步骤1:安装jupyter 这里安装集成环境包Anaconda下载地址及安装方法:https://www.continuum.io/downloads步骤2:下载spark http://spark.apache.org/ 解压:tar zxvf spark-2.1.0-bin-hadoop2.7.tgz步骤3:配置jupyter登录产生密码:终端输入ipython原创 2017-02-22 19:43:27 · 7947 阅读 · 0 评论 -
Python机器学习库SKLearn的特征选择
参考地址:http://scikit-learn.org/stable/modules/feature_selection.html#feature-selectionsklearn.feature_selection模块中的类可用于样本集中的特征选择/维数降低,以提高估计器的准确度分数或提高其在非常高维数据集上的性能。1.1 删除低方差特征VarianceThreshold是特征翻译 2017-04-30 17:10:38 · 10295 阅读 · 0 评论