大数据
文章平均质量分 79
发量不足
耐心,自信来源于你强大的思想和知识基础
展开
-
[机器学习、Spark]Spark MLlib分类
线性支持向量机在机器学习领域中是一种常见的判别方法,是一一个有监督学习模型,通常用来进行模式识别,分类以及回归分析。通过找到支持向量从而获得分类平面的方法,称为支持向量机。可以非常成功地处理回归(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广到预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。逻辑回归又称为逻辑回归分析,它是一个概率模型的分类算法,常用于数据挖掘、疾病自动诊断以及经济预测等领域。逻辑回归和线性回归类似,但它不属于回归分析家族,差异主要是在于变量不同原创 2022-10-23 10:08:22 · 2908 阅读 · 76 评论 -
[机器学习、Spark]Spark MLlib机器学习
机器学习是一门多领域的交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能.重新组织已有的知识结构使之不断改善自身的性能。机器学习分为2类:(1)有监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个最优模型,再利用这个模型将所有的输人映射为相应的输出,对输出进行简单的判断从而实现分类的目的。如分类、回归和推荐算法都属于有监督学习。(2)无监督学习原创 2022-10-17 16:11:27 · 1494 阅读 · 67 评论 -
[平台运维、Hadoop]Spark Streaming 实时计算框架
在大数据技术中,有离线计算、批量计算、实时计算以及流式计算,其中,离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。Spark Streming是构建在Spark上的实时计算框架,且是对Sparks Core API的一个扩展,它能够实现对流数据进行实时处理,并具有很好的可扩展性、高吞吐量和容错性。原创 2022-10-02 14:25:22 · 1684 阅读 · 8 评论 -
[大数据、Hadoop、数据采集、MySQL、计算机基础、Windows、练习题库、面试]
[大数据][数据采集][练习题][面试]正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。16. 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。原创 2022-09-30 20:48:04 · 2802 阅读 · 13 评论 -
[大数据]数据可视化 -- 练习卷(下)
一、简述数据可视化的概念?数据可视化将各种数据用图形的方式展示给人们,是人们理解数据、诠释数据的重要手段和途径,数据可视化是帮助用户通过认识数据,进而发现这些数据所反映的实质。二、简述数据可视化的类型?科学可视化、信息可视化、可视化分析三、简述数据可视化的标准?实用性、完整性、真实性、艺术性、交互性四、简述数据可视化的作用? 数据表达、数据操作、数据分析五、简述数据可视化技术的特征?1.功能特征2.使用人群特征3.应用场景特征原创 2022-09-29 18:47:27 · 3119 阅读 · 115 评论 -
[大数据]数据可视化 -- 练习卷(上)
是指发现并纠正数据文件中可识别错误的最后一道程序,是对数据的完整性、一致性和准确性进行重新审查和校验的过程。.动态图表是图表分析的较高级形式,当用户执行某个操作后,图表中的数据会随之发生变化,这种图表也称为。相结合的方式,可以很好地阐释单个系列数据从一个值到另一个值的变化过程,形象地说明数据的流动情况。的定位功能,选择其中的错误单元格或空值单元格,进一步查找数据表中的错误值和空白值。是一种直观的条件格式,通过颜色的深浅表示数据的大小,说明数据的分布和变化。.下列属于反映发展趋势的可视化图表的原创 2022-09-24 19:08:38 · 8103 阅读 · 118 评论