机器学习
神之凝视
这个作者很懒,什么都没留下…
展开
-
TF-IDF词频逆文档频率算法
TF-IDF词频逆文档频率(TF-IDF) 是一种特征向量化方法,广泛用于文本挖掘中,以反映术语对语料库中文档的重要性。用t表示术语,用d表示文档,用D表示语料库。TF(t,d) 表示术语频率是术语在文档中出现的次数,而DF(t,D)文档频率是包含术语的文档在语料库中出现的次数。如果我们仅使用术语频率来衡量重要性,那么很容易过分强调那些经常出现但几乎不包含有关文档信息的术语,例如“a”,“the”和“of”。如果术语经常出现在整个语料库中,则表示该术语不包含有关特定文档的特殊信息。逆文档频率度量的是一个术原创 2020-09-17 17:05:36 · 2822 阅读 · 0 评论 -
Spark MLlib之管道
一.ML管道ML管道提供基于DataFrame的统一高级API集,可帮助用户创建和调整实用的机器学习管道。二.管道中的主要概念MLlib对用于机器学习算法的API进行了标准化,从而使将多种算法组合到单个管道或工作流中变得更加容易。DataFrame:此ML API使用DataFrame作为ML数据集,可以保存各种数据类型。例如,一个DataFrame可能有不同的列,用于存储文本,特征向量,真实标签和预测。Transformer:一个Transformer是一种算法,其可以将一个DataFrame原创 2020-09-10 19:20:37 · 395 阅读 · 0 评论 -
基于TensorFlow卷积神经网络实现手写数字识别
一.权重初始化为了创建这个模型,我们需要创建大量的权重和篇置项。这个模型中的权重在初始化时应该加入少量的噪声来打破对称性以及避免0梯度。由于我们使用的是Relu激活函数,因此比较好的做法是用一个较小的正数来初始化偏置项,以避免神经元节点输出恒为0的问题。为了不在建立模型的时候反复做初始化操作,我们定义两个函数用来初始化。def weight_variable(shape): initial = tf.truncated_normal(shape, stddev=0.1) return t原创 2020-08-14 18:36:13 · 939 阅读 · 0 评论 -
Tensorflow手写数字识别
一.MNIST数据集当我们开始学习编程的时候,第一件事往往是学习打印"Hello World"。就好比编程入门有Hello World,机器学习入门有MNIST。MNIST是一个入门级的计算机视觉数据集,它包含各种手写数字图片:它也包含每一张图片对应的标签,告诉我们这个是数字几。比如,上面这四张图片的标签分别是5,0,4,1。为了便于下载MNIST数据集,执行下面的python代码【需要提前安装好tensorflow】可以将该数据集下载到本地:from tensorflow.examples.t原创 2020-08-04 19:16:27 · 1816 阅读 · 1 评论 -
Spark ML基本算法【总结器】
一.简介通过使用Summarizer提供矢量列【向量、矩阵】汇总统计Dataframe。可用的指标是按列的最大值,最小值,平均值,总和,方差,std和非零数,以及总数。二.代码实战【以均值、方差为例】package spark2.mlimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.sql.SparkSessioni原创 2020-07-03 15:03:44 · 3196 阅读 · 0 评论 -
Spark ML常见异常【Vector】
一.常见分析在Spark 机器学习中,Vector向量和Metricx矩阵是最常用的两种数据类型。特别是Vector向量类型,在使用Vector向量类型时,默认是不会导入Spark定义的Vector类型的。默认使用scala.collection.immutable.Vector,此时使用Spark ml算法就会报类型异常。代码:val (meanVal, varianceVal) = df.select(metrics("mean", "variance").summary($"features",原创 2020-07-03 14:20:10 · 753 阅读 · 0 评论 -
Spark ML基本算法【ChiSquareTest卡方检验】
一.简介假设检验是一种强大的统计工具,可用来确定结果是否具有统计学意义,以及该结果是否偶然发生。spark.ml当前支持Pearson的卡方测试独立性。ChiSquareTest针对标签上的每个功能进行Pearson的独立性测试。对于每个要素,(要素,标签)对将转换为列联矩阵,针对该列矩阵计算卡方统计量。所有标签和特征值必须是分类的。二.代码实战package spark2.mlimport org.apache.log4j.{Level, Logger}import org.apache.s原创 2020-07-02 20:38:59 · 1486 阅读 · 0 评论 -
Spark ML基本算法【Correlation相关性】
一.简介计算两个系列数据之间的相关性是“统计”中的常见操作。spark.ml 提供了很多系列中的灵活性,计算两两相关性。目前支持的相关方法是Pearson和Spearman的相关。Correlation 使用指定的方法为向量的输入数据集计算相关矩阵。输出将是一个DataFrame,其中包含向量列的相关矩阵。二.代码实战package big.data.analyse.mlimport org.apache.log4j.{Level, Logger}import org.apache.spark原创 2020-06-25 12:01:58 · 2656 阅读 · 0 评论 -
Spark 机器学习库【MLlib】编程指南
一.机器学习库MLlib是Spark的机器学习库【ML】。其目标是使实用的机器学习算法变得可扩展且容易使用。在较高级别,它提供了以下工具:机器学习算法:常见的机器学习算法,例如分类,回归,聚类和协同过滤。特征化:特征提取,变换,降维和选择。管道:用于构建,评估和调整ML管道的工具。持久性:保存和加载算法、模型和管道。实用程序:线性代数,统计信息,数据处理等。二.基于DataFrame的API基于MLlib RDD的API现在处于维护模式。从Spark 2.0开始,软件包中基于RDD的A原创 2020-06-23 21:30:13 · 1892 阅读 · 0 评论