机器学习
leemusk
这个作者很懒,什么都没留下…
展开
-
信息熵、相对熵、交叉熵总结
1、什么是信息熵信息熵是由热力学的中的熵引出的概念,在热力学中,熵通常表示事物的混沌程度,事物越混沌,其熵越大。相应的信息熵表示的是随机变量的不确定性,某个事件发生的概率越小,其信息熵越大。具体公式为:H(P)=−∑P(X)logP(X)H(P) = -\sum P(X) logP(X)H(P)=−∑P(X)logP(X)2. 什么是相对熵相对熵也称为KL散度,描述的是随机变量的真实分布和假设分布的拟合程度,拟合程度越高,相对熵越小。若真实分布与假设分布完全一致,则相对熵为0。相对熵通常用于统计原创 2020-07-21 20:15:18 · 564 阅读 · 0 评论 -
理解什么是机器学习中的端对端
简单讲解一下本人对端对端模型的理解, 参考知乎回答内容。首先我们先来介绍一下什么是非端对端模型。非端对端模型就是将一个任务分为多个步骤或模型解决的模型。典型的一个非端对端模型为NLP 任务拆分为分词、词性标注、句法分析、语义分析等多个独立步骤,我们可以知道每一个小模型的参数,输出,以及可以分析每一个模型对整体模型的贡献。端对端模型: 将多步骤/模块的任务用一个步骤/模型解决的模型。可以理解...原创 2020-04-29 19:52:29 · 6182 阅读 · 1 评论 -
非均衡分类问题
机器学习模型性能评估什么是非均衡分类问题?非均衡问题是指在分类器训练时,正例数目和反例数目不相等(相差很大),或者错分正反例导致的代价不同时存在的问题。而大多数情况下,不同类别的分类代价并不相等,而诸如信用卡欺诈等场景中,正反例的样本的数目相差巨大,这就需要一些新的分类器性能度量方法和技术,来处理上述均衡问题。分类性能度量指标:错误率、正确率、召回率及ROC曲线错误率是衡量分类器任务的成...原创 2020-04-20 19:12:34 · 1297 阅读 · 0 评论 -
spark.ml支持算法总结
一、分类1、Logistic regression1.1 适用的数据逻辑回归通常用于处理自变量是连续变量,因变量是分类变量的回归问题。1.2 代码机器结果原创 2019-12-18 11:24:25 · 2865 阅读 · 0 评论 -
spark编程基本(二)-- RDD编程
RDD创建从文件系统中加载数据创建RDD:Spark采用textFile() 方法来从文件系统中加载数据创建RDD方法把文件的URI作为参数,这个URI可以是: 1) 本地文件系统的地址 2) 或者是分布式文件系统HDFS的地址 3) 或者是Amazon S3的地址等通过并行集合(数组)创建RDD:可以调用SparkContext的parallelize方法,在Dri...原创 2019-12-10 21:48:26 · 527 阅读 · 0 评论 -
spark官方文档学习---聚类
聚类官方文档K-meansk均值是最常用的聚类算法之一,它将数据点聚集成预定数量的聚类。 MLlib实现包括称为kmeans ||的k-means ++方法的并行变体。Means被实现为一个估计器,并生成一个KMeansModel作为基础模型。from pyspark.ml.clustering import KMeansfrom pyspark.ml.evaluation impo...原创 2019-11-22 09:42:12 · 290 阅读 · 0 评论 -
spark官方文档MLlib学习---分类与回归
分类与回归官方文档一、分类1. 逻辑分类Logistic回归是一种用于预测分类响应的流行方法。 这是广义线性模型的一种特殊情况,可以预测结果的可能性。 在spark.ml中,逻辑回归可以通过使用二项式逻辑回归来预测二进制结果,或者可以通过使用多项逻辑回归来预测多类结果。 使用family参数在这两种算法之间进行选择,或者不设置它,Spark会推断出正确的变体。通过将family参数设置为...原创 2019-11-21 22:58:21 · 735 阅读 · 0 评论 -
spark官方文档Mlib学习(一)
机器学习库指南MLlib时Spark的机器学习库,其目标是使实用的机器学习可扩展切容易。在较高级别,它提供了以下工具:机器学习算法:常用的学习算法如分类,回归,聚类,和协同过滤。特征化:特征抽取,变换,降维和选择管道:用于构建,评估和调整ML管道的工具声明:基于DataFrame的API是主要API基于MLlib RDD的API现在处于维护模式。Data sources在本节中...原创 2019-11-20 16:54:52 · 1059 阅读 · 1 评论 -
logistic_regression---python实现
logistic regression(用python实现)logistic 回归,虽然名字里有 “回归” 二字,但实际上是解决分类问题的一类线性模型。在某些文献中,logistic 回归又被称作 logit 回归,maximum-entropy classification(MaxEnt,最大熵分类),或 log-linear classifier(对数线性分类器)。该模型利用函数 logis...原创 2019-11-17 19:36:01 · 7095 阅读 · 0 评论 -
吴恩达机器学习之路---logistic regression
logistic regression一、Logistic 回归(利用matlib实现:基础版)1、logistic regression数学基础1.1 此示例为二元分类,二元分类的最终预测结果h为{0, 1},为获得此效果,使用sigmoid函数/logistic函数:g(z)=1/1+exp(−z) g(z) = 1 / 1 + exp(-z)g(z)=1/1+exp(−z)效果...原创 2019-11-17 12:31:16 · 750 阅读 · 1 评论 -
吴恩达机器学习之路---muti-class classfication and Neural Networks
1.多类别分类本文将使用逻辑回归和神经网络来识别手写数字( 0-9 )。以下代码皆为matlab实现。1.1 数据集% 从文件中加载已保存的矩阵load('ex3data1.mat');% 矩阵X和y将已经存在MATLAB环境中数据集中一共有5000个训练样本,每个训练样本是2020像素的数字灰度图像。每个像素为一个浮点数,代表在当前位置的灰度值。将2020的像素展开成一个400的向...原创 2019-11-18 14:55:23 · 159 阅读 · 0 评论