Spark机器学习
文章平均质量分 81
从零到一逐步探索机器学习
周润发的弟弟
5年JAVA开发,目前就职于京东,感慨于技术栈之窄,奋力扩充中,希望大家多多支持
展开
-
【SparkML实践7】特征选择器FeatureSelector
LSH的基本思想是使用一族函数(“LSH族”)将数据点哈希到桶中,使得彼此接近的数据点有很高的概率落在同一个桶里,而彼此距离较远的数据点则很可能落在不同的桶中。在LSH中,我们定义一个假正例为一对距离较远的输入特征(满足d(p,q)≥r2)被哈希到同一个桶中,我们定义一个假反例为一对接近的特征(满足d(p,q)≤r1)被哈希到不同的桶中。自连接会产生一些重复的对。在Spark中,不同的LSH族在不同的类中实现(例如,MinHash),并且每个类中都提供了特征转换、近似相似性连接和近似最近邻搜索的API。原创 2024-02-04 16:10:15 · 1048 阅读 · 0 评论 -
【SparkML系列3】特征提取器TF-IDF、Word2Vec和CountVectorizer
这种方法避免了计算全局的词到索引映射表,这对于大型语料库来说可能代价很高,但它会遭受潜在的哈希冲突,不同的原始特征经过哈希可能会变成相同的词项。词频-逆文档频率(Term frequency-inverse document frequency,简称TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,用以反映一个词语对于语料库中文档的重要性。一个可选的参数minDF也会影响拟合过程,它指定了一个词必须出现在多少个文档中才能被包含在词汇表中,这个数字可以是具体数目(如果小于1.0,则表示比例)。原创 2024-01-31 20:11:20 · 1555 阅读 · 0 评论 -
【Spark实践6】特征转换FeatureTransformers实践Scala版--补充算子
这个参数也可以设置为“skip”,表示应该从结果数据框中过滤掉包含无效值的行,或者“optimistic”,表示不应该检查列中的无效值,并且应该保留所有行。如果用户选择保留 NaN 值,这些值将被特殊处理并放入它们自己的桶中,例如,如果使用了 4 个桶,那么非 NaN 数据将被放入 buckets[0-3],但 NaN 将被计入一个特殊的 bucket[4]。在这个例子中,Imputer 将替换所有出现的 Double.NaN(缺失值的默认值)为从相应列的其他值计算出的均值(默认的填充策略)。原创 2024-02-02 12:25:34 · 1300 阅读 · 0 评论 -
【SparkML实践5】特征转换FeatureTransformers实战scala版
本章节主要讲转换1。原创 2024-02-01 11:48:43 · 1125 阅读 · 2 评论 -
【SparkML实践4】Pipeline实战scala版
对于 Estimator 阶段,则调用 fit() 方法来产生一个 Transformer(它成为 PipelineModel 或已拟合 Pipeline 的一部分),然后在 DataFrame 上调用该 Transformer 的 transform() 方法。例如,一个学习算法是一个Estimator,它在DataFrame上训练并产生一个模型。一个特征转换器可能会取一个DataFrame,读取一个列(例如,文本),将其映射到一个新列(例如,特征向量),并输出一个附加了映射列的新DataFrame。原创 2024-02-01 11:45:35 · 1139 阅读 · 0 评论 -
【SparkML系列2】DataSource读取图片数据
该图像数据源用于从目录加载图像文件,它可以通过 Java 库中的 ImageIO 加载压缩图像(jpeg、png 等)到原始图像表示。加载的 DataFrame 有一个 StructType 列:“image”,包含存储为图像模式的图像数据。除了一些通用的数据源,如 Parquet、CSV、JSON 和 JDBC 外,我们还提供了一些专门用于机器学习的数据源。data:BinaryType(以 OpenCV 兼容的顺序排列的图像字节:在大多数情况下为逐行 BGR)原创 2024-01-31 20:07:46 · 614 阅读 · 0 评论 -
【SparkML系列1】相关性、卡方检验和概述器实现
我们通过概述器为数据帧提供向量列的汇总统计信息。可用的指标包括列最大值、最小值、平均值、总和、方差、标准差以及非零元素的数量,还有总计数。/*** @description 概述器*/.builder//mean: 用于计算向量列的均值。//metrics: 允许用户指定需要计算的多个统计量,例如均值、方差、总和等。//variance: 用于计算向量列的方差。${meanVal* @description 概述器。原创 2024-01-31 20:06:12 · 599 阅读 · 0 评论