- 博客(11)
- 收藏
- 关注
原创 【无标题】
Apache Spark 是一种开源的集群计算框架,用于快速处理大数据。它是由加州大学伯克利分校AMPLab 开发的,并于 2013 年开源。Spark 提供了一种高效、可扩展和易于使用的编程模型,支持多种编程语言,如 Scala、Java、Python 和 R。Spark 的核心是 Resilient Distributed Dataset(RDD),它是一个可以并行处理的分布式内存数据结构。RDD 可以通过多个操作进行转换和操作,从而实现对数据的高效处理和分析。这些操作包括过滤、映射、聚合、排序等。
2023-11-15 12:27:59
27
原创 Spark大数据快速运算实训三:虚拟机进行hadoop安装及配置+工作原理流程解释
Hadoop是一个开源框架,用于分布式存储和处理大型数据集。它基于Google的MapReduce算法和Google文件系统(GFS),旨在提供一种可扩展的、分布式的处理大数据集的平台。Hadoop包括两个核心组件:Hadoop分布式文件系统(HDFS)和Hadoop MapReduce。HDFS是一个可靠的分布式文件系统,用于存储大数据集,而Hadoop MapReduce则是一种用于处理HDFS中存储的数据的编程模型和计算框架。Hadoop被广泛用于大数据处理、数据仓库、日志分析、搜索和机器学习等领域。
2023-11-09 15:28:01
326
1
原创 数据结构题目合集一: 链表练习 | c++ | 附代码 | 打印输出<=N的所有整数+交集并集练习+小朋友报数。
n个小朋友编号为1,2,3,4,5,........,n;围城1圈,从1到3报数,报数为3的小朋友出队;出队后又重新从出队小朋友的下一个人开始报数(从1到3报数),报数为3的小朋友出队。重复这个过程,直到剩下1个小朋友,然后输出他的编号。单链表实现集合A和集合B的并和交。头插法创建单链表LA,尾插法创建单链表LB,然后实现集合的两种运算,结果保存在单链表里面并输出结果。提交可运行的源码文件,第一种方法:一重循环。
2023-11-08 09:54:58
46
1
原创 机器学习项目五:支持向量机(概念题+实操[附代码])
from sklearn.model_selection import train_test_split # 从scikit-learn中导train_test_split用于数据集划分。from sklearn.datasets import load_iris # 从scikit-learn中导入load_iris数据集。(3)求解对偶目标函数W(α),即可获得更新后的α_i、α_j。(2)选取一对需要更新的变量α_i、α_j。(1)固定α_i、α_j以外的参数。
2023-11-07 15:53:14
502
原创 机器学习项目四:贝叶斯模型(项目+概念题)
model = GaussianNB().fit(data_tr,target_tr) #模型训练。sum(pre==target_te)/len(target_te) # 精度。pre = model.predict(data_te) # 模型预测。iris = load_iris() # 鸢尾花数据。(4)以P(x│y_i )P(y_i)最大项作为x所属类别。(5)对每个类别计算P(x│y_i )P(y_i)(2)对每个特征属性计算所有划分的条件概率。(1)对每个类别计算P(y_i)
2023-11-06 08:45:45
541
1
原创 机器学习项目三:KNN算法
sklearn库有自带的数据集,sklearn.datasets.load_iris()可加载得到鸢尾花数据集。利用KNN算法实现对鸢尾花分类模型的构建及模型性能的基本评估。print('精确度评估结果为:',accuracy_score(label_te, pred))(2)返回前k个点出现频率最高的类别作为当前点的预测分类。(4)计算已知类别数据集中的点与当前点之间的距离。(1)确定前k个点所在类别对应的出现频率。(5)选取与当前点距离最小的k个点。(3)按照距离递增次序排序。
2023-11-03 10:08:06
41
原创 Spark大数据快速运算实训二:linux系统的配置基础操作
vi /etc/hostname #在hostname里面只需输入: s0766(也就是要修改的主机名)vim /etc/sudoers #在上一题的基础上继续操作,也就是在root用户下操作。spark ALL=(ALL) NOPASSWD:ALL #文件添加的句子。ls -l /home/ #这里是查看/home目录详细信息。passwd spark #输入密码是不会显示的,输完直接回车。cd apps #切换到/opt/apps目录下。
2023-11-02 14:43:15
297
原创 Spark大数据快速运算实训一:linux虚拟机安装及JAVA安装
因为下载java用到的是xshell,所以需要有xshell的运行环境。以下是代码合集,可以直接复制。图片是截图以及添加了说明。
2023-11-01 10:33:56
597
1
原创 机器学习项目二:(逻辑回归模型)掌握机器学习的通用流程
目录: 1、案例题 2、概念题研究生入学考试录取预测,构建一个逻辑回归模型对学生是否会被录取为研究生进行预测,并对构建出的模型性能进行简单评价(需用数据LogisticRegression.csv)。 2、概念题2.1 sklearn.model_selection中,哪个函数可实现训练集和测试集的划分? train_test_split2.2 测试误差与泛化误差的评估方法有:自助法,流出法,交叉验证法2.3 错误率:分类错误样本数占总样本数比例2.4 精度:1-错误率2.5 泛化
2023-10-30 13:27:16
268
1
原创 机器学习项目一:认识机器学习
回归的母的是为了找到最优拟合,通过回归算法得到是一个最优拟合线,这个线条可以最好的接近数据集中的各个点。模型通过训练集来学习数据的特征,产生一个模型,以便在之后的预测中使用。测试集时用于评估模型最终性能的数据集,它通常从原始数据集中划分出来的,与训练集和验证集互不重叠,测试集的作用是评估模型从未见过的数据上的性能,并判断模型是否足够准确。①分类问题输出的是物体所属的类别,回归问题输出的是物体的值。②分类问题输出的值是离散的,回归问题输出的值是连续的。③分类问题输出的值是定性的,回归问题输出的值是定量的。
2023-10-30 12:54:49
50
SQLite3下载工具及学习全教程(学习教程附链接)
2023-11-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人