![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 68
DataPulse-辉常努腻
码出未来 let's coding!
展开
-
HADOOP MapReduce 处理 Spark 抽取的 Hive 数据【解决方案一】
今天咱先说问题,经过几天测试题的练习,我们有从某题库中找到了新题型,并且成功把我们干趴下,昨天今天就干了一件事,站起来。沙问题?java mapeduce 清洗 hive 中的数据 ,清晰之后将driver代码 进行截图提交。 spark之前抽取的数据是.parquet格式的, 对 mapreduce 不太友好,我决定从新抽取, 还是用spark技术,换一种文件格式 使用新方法进行sink的时候我是直接like别的现成表结构折磨干的,后来hive分割字段都TM乱套啦,赞看看!1.使用scala+sp原创 2022-06-21 17:26:03 · 772 阅读 · 0 评论 -
使用Spark 编码 写入 hive 的过程中 hive字段乱码 [解决方案]
由于元数据中的表结构中包含中文,我在抽取到spark过程中已经解决了一次乱码问题,具体显示为问题????,解决方法是在mysql连接上加参数读取mysql成功解决乱码我经过清洗之后,准备写入到hive中,等我写完后,我以为完活啦,可是没想到等我再次使用数据的时候,个别字段值全是null,我在hive查看过数据之后又看表结构,发现表结构中中文是乱码的,我猜想,这应该就导致了字段值无法插入对应字段的结果,找不到对应的字段了,因为乱码了。开始了我的网上冲浪,最后因为我是字段乱码,我翻阅了很多不管用的资料。好啦原创 2022-06-08 16:38:51 · 926 阅读 · 1 评论 -
数据结构-集成算法-随机森林
数据结构-集成算法-随机森林 [内附spark-ml代码]随机森林集成算法随机森林的相关基础知识随机森林梯度提升树多层感知分类器随机森林集成模型指将基础模型组合成为一个模型。Spark 支持两种主要的集成算法:随机森林和梯度提升树。集成算法集成学习(ensemble learning)是目前非常流行的机器学习策略,基本上所有问题都可以借用其思想来得到效果上的提升。基本出发点就是把算法和各种策略集中在一起,说白了就是一个搞不定大家一起上!集成学习既可以用于分类问题,也可以用于回归问题,在机器学习领原创 2022-05-21 21:10:55 · 1354 阅读 · 0 评论 -
数据结构 - 决策树(分类)
数据结构 - 决策树一决策树的介绍二决策树的构造使用决策树做预测需要以下过程:1.信息熵2.条件熵(Conditional Entropy)与[信息增益](https://so.csdn.net/so/search?q=信息增益&spm=1001.2101.3001.7020)(Information Gain)3.信息增益做特征选择的优缺点4.信息增益比(Infomation Gain Ratio)5.Gini系数一决策树的介绍决策树(decision tree):是一种基本的分类与回归方法,原创 2022-05-21 19:48:36 · 9623 阅读 · 1 评论 -
spark ml特征转换操作StringIndexer、IndexToString、VectorIndexer、oneHotEncoder、Bucketizer、QuantileDiscretizer
文章目录特征转换方法StringIndexerVectorIndexerIndexToString一、StringIndexer二、IndexToString三、VectorIndexer离散<->连续特征或Label相互转换oneHotEncoderBucketizer输出例子决策树简介运行实例结果展示特征转换方法StringIndexerStringIndexer(字符串-索引变换)是一个估计器,是将字符串列编码为标签索引列。索引位于[0,numLabels),按标签频率排序,频率最高原创 2022-05-16 19:34:05 · 921 阅读 · 0 评论 -
【Spark Mllib】分类模型——各分类模型使用
一. 数据集这个数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂存在,很快就不流行了)还是长久(长时间流行)。可以查看上面的数据集页面中的简介得知可用的字段。开始四列分别包含 URL 、页面的 ID 、原始的文本内容和分配给页面的类别。接下来 22 列包含各种各样的数值或者类属特征。最后一列为目标值, 1 为长久, 0 为短暂。除去数据集的第一行,然后进行解析:// sed 1d train.tsv > train_noheade原创 2022-05-09 21:27:45 · 509 阅读 · 0 评论 -
准确率(Accuracy) 精确率(Precision) 召回率(Recall)和F1-Measure(精确率和召回率的调和平均值)
准确率(Accuracy) 精确率(Precision) 召回率(Recall)和F1-Measure(精确率和召回率的调和平均值)Spark 构建分类模型学习分类模型的基础知识以及如何在各种应用中使用这些模型。分类通常指将事物分成不同的类别。在分类模型中,我们期望根据一组特征来判断事物的类别,这些特征代表了与物品、对象、事件或上下文相关的属性(变量)。最简单的分类形式是分为两个类别,即二分类。一般将其中一类标记为正类(记为 1),另外一类标记为负类(记为1 或者 0)。下图展示了一个二分类的简原创 2022-04-29 17:12:19 · 1513 阅读 · 0 评论 -
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,package dimensionalityreductionimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.mllib.linalgimport org.apache.spark.mllib.linalg.{Matrix, SingularValueD原创 2022-04-28 21:46:20 · 2377 阅读 · 0 评论 -
PrincipalComponentAnalysis 主成分分析
PrincipalComponentAnalysis 主成分分析PrincipalComponentAnalysis 主成分分析1、概念介绍2、PCA变换3、“模型式”的PCA变换实现PrincipalComponentAnalysis 主成分分析1、概念介绍主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得变换后的数据投影在一组新的“坐标轴”上的方差最大化,随后,裁剪掉变换后方差很小的“坐标轴”,剩下的新“坐标轴”即被称为 主成分(Princip原创 2022-04-28 21:27:36 · 560 阅读 · 0 评论 -
随机数生成 Random data generation
Spark ml 随机数生成器RandomRDDs 是一个工具集,用来生成含有随机数的RDD,可以按各种给定的分布模式生成数据集,Random RDDs包下现支持正态分布、泊松分布和均匀分布三种分布方式。RandomRDDs提供随机double RDDS或vector RDDS。package basicstatisticsimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org原创 2022-04-23 21:36:07 · 1897 阅读 · 3 评论 -
相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)
相关性CorrelationsCorrelations,相关度量,目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。相关系数是用以反映变量之间相关关系密切程度的统计指标。简单的来说就是相关系数绝对值越大(值越接近1或者-1), 当取值为0表示不相关,取值为(0~-1]表示负相关,取值为(0, 1]表示正相关。Pearson相关系数表达的是两个数值变量的线性相关性, 它一般适用于正态分布。其取值范围是[-1, 1], 当取值为0表示原创 2022-04-22 08:18:37 · 11031 阅读 · 0 评论 -
Spark 机器学习 概括统计 summary statistics [摘要统计]
概括统计 概括统计 summary statistics [摘要统计]读取要分析的数据,把数据转变成RDD[Vector]类型:然后,我们调用colStats()方法,得到一个MultivariateStatisticalSummary类型的变量:结果完整代码概括统计 summary statistics [摘要统计]单词linalg 分开linear + algebra: 线性代数对于RDD[Vector]类型的变量,Spark MLlib提供了一种叫colStats()的统计方法,调用该原创 2022-04-21 21:17:10 · 3135 阅读 · 0 评论 -
机器学习 spark.mllib 数据类型学习
机器学习 spark.mllib 数据类型学习package datatypeimport org.apache.spark.ml.linalg.Vectorsobject Demo1 { def main(args: Array[String]): Unit = { /** * 局部变量 * * 单词 * * dense: 稠密 * sparse: 稀疏 * * indices: index ar原创 2022-04-20 10:20:32 · 1270 阅读 · 0 评论