lyeennnn-CSDN博客

原创【无标题】

Apache Spark 是一种开源的集群计算框架，用于快速处理大数据。它是由加州大学伯克利分校AMPLab 开发的，并于 2013 年开源。Spark 提供了一种高效、可扩展和易于使用的编程模型，支持多种编程语言，如 Scala、Java、Python 和 R。Spark 的核心是 Resilient Distributed Dataset（RDD），它是一个可以并行处理的分布式内存数据结构。RDD 可以通过多个操作进行转换和操作，从而实现对数据的高效处理和分析。这些操作包括过滤、映射、聚合、排序等。

2023-11-15 12:27:59 27

原创 Spark大数据快速运算实训三：虚拟机进行hadoop安装及配置+工作原理流程解释

Hadoop是一个开源框架，用于分布式存储和处理大型数据集。它基于Google的MapReduce算法和Google文件系统（GFS），旨在提供一种可扩展的、分布式的处理大数据集的平台。Hadoop包括两个核心组件：Hadoop分布式文件系统（HDFS）和Hadoop MapReduce。HDFS是一个可靠的分布式文件系统，用于存储大数据集，而Hadoop MapReduce则是一种用于处理HDFS中存储的数据的编程模型和计算框架。Hadoop被广泛用于大数据处理、数据仓库、日志分析、搜索和机器学习等领域。

2023-11-09 15:28:01 326 1

原创数据结构题目合集一：链表练习 | c++ | 附代码 | 打印输出＜=N的所有整数+交集并集练习+小朋友报数。

n个小朋友编号为1,2,3,4,5,........,n；围城1圈，从1到3报数，报数为3的小朋友出队；出队后又重新从出队小朋友的下一个人开始报数（从1到3报数），报数为3的小朋友出队。重复这个过程，直到剩下1个小朋友，然后输出他的编号。单链表实现集合A和集合B的并和交。头插法创建单链表LA，尾插法创建单链表LB，然后实现集合的两种运算，结果保存在单链表里面并输出结果。提交可运行的源码文件，第一种方法：一重循环。

2023-11-08 09:54:58 46 1

原创机器学习项目五：支持向量机（概念题+实操[附代码]）

from sklearn.model_selection import train_test_split # 从scikit-learn中导train_test_split用于数据集划分。from sklearn.datasets import load_iris # 从scikit-learn中导入load_iris数据集。（3）求解对偶目标函数W(α)，即可获得更新后的α_i、α_j。（2）选取一对需要更新的变量α_i、α_j。（1）固定α_i、α_j以外的参数。

2023-11-07 15:53:14 502

原创机器学习项目四：贝叶斯模型（项目+概念题）

model = GaussianNB().fit(data_tr,target_tr) #模型训练。sum(pre==target_te)/len(target_te) # 精度。pre = model.predict(data_te) # 模型预测。iris = load_iris() # 鸢尾花数据。（4）以P(x│y_i )P(y_i)最大项作为x所属类别。（5）对每个类别计算P(x│y_i )P(y_i)（2）对每个特征属性计算所有划分的条件概率。（1）对每个类别计算P(y_i)

2023-11-06 08:45:45 541 1

原创机器学习项目三：KNN算法

sklearn库有自带的数据集，sklearn.datasets.load_iris()可加载得到鸢尾花数据集。利用KNN算法实现对鸢尾花分类模型的构建及模型性能的基本评估。print('精确度评估结果为：',accuracy_score(label_te, pred))（2）返回前k个点出现频率最高的类别作为当前点的预测分类。（4）计算已知类别数据集中的点与当前点之间的距离。（1）确定前k个点所在类别对应的出现频率。（5）选取与当前点距离最小的k个点。（3）按照距离递增次序排序。

2023-11-03 10:08:06 41

原创 Spark大数据快速运算实训二：linux系统的配置基础操作

vi /etc/hostname #在hostname里面只需输入: s0766(也就是要修改的主机名）vim /etc/sudoers #在上一题的基础上继续操作，也就是在root用户下操作。spark ALL=(ALL) NOPASSWD:ALL #文件添加的句子。ls -l /home/ #这里是查看/home目录详细信息。passwd spark #输入密码是不会显示的，输完直接回车。cd apps #切换到/opt/apps目录下。

2023-11-02 14:43:15 297

原创 Spark大数据快速运算实训一：linux虚拟机安装及JAVA安装

因为下载java用到的是xshell，所以需要有xshell的运行环境。以下是代码合集，可以直接复制。图片是截图以及添加了说明。

2023-11-01 10:33:56 597 1

原创爬虫案例一：BeautifulSoup库+request库--爬取学校官网信息

【代码】爬虫案例一：爬取学校官网信息。

2023-10-30 15:06:16 180

原创机器学习项目二：(逻辑回归模型）掌握机器学习的通用流程

目录： 1、案例题 2、概念题研究生入学考试录取预测，构建一个逻辑回归模型对学生是否会被录取为研究生进行预测，并对构建出的模型性能进行简单评价（需用数据LogisticRegression.csv）。 2、概念题2.1 sklearn.model_selection中，哪个函数可实现训练集和测试集的划分？ train_test_split2.2 测试误差与泛化误差的评估方法有：自助法，流出法，交叉验证法2.3 错误率：分类错误样本数占总样本数比例2.4 精度：1-错误率2.5 泛化

2023-10-30 13:27:16 268 1

原创机器学习项目一：认识机器学习

回归的母的是为了找到最优拟合，通过回归算法得到是一个最优拟合线，这个线条可以最好的接近数据集中的各个点。模型通过训练集来学习数据的特征，产生一个模型，以便在之后的预测中使用。测试集时用于评估模型最终性能的数据集，它通常从原始数据集中划分出来的，与训练集和验证集互不重叠，测试集的作用是评估模型从未见过的数据上的性能，并判断模型是否足够准确。①分类问题输出的是物体所属的类别，回归问题输出的是物体的值。②分类问题输出的值是离散的，回归问题输出的值是连续的。③分类问题输出的值是定性的，回归问题输出的值是定量的。

2023-10-30 12:54:49 50

SQLite3下载工具及学习全教程（学习教程附链接）

一文掌握SQLite3基本用法: https://blog.csdn.net/gangtienaner/article/details/119575172 SQLite3使用全教程：https://www.runoob.com/sqlite/sqlite-intro.html 1、什么是SQLite？ 1.1、SQLite是一个进程内的库，实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。它是一个零配置的数据库，这意味着与其他数据库不一样，您不需要在系统中配置。 1.2、就像其他数据库，SQLite 引擎不是一个独立的进程，可以按应用程序需求进行静态或动态连接。SQLite 直接访问其存储文件。 2、为什么要用 SQLite？ 2.1、不需要一个单独的服务器进程或操作的系统（无服务器的）。 2.2、SQLite 不需要配置，这意味着不需要安装或管理。 2.3、一个完整的 SQLite 数据库是存储在一个单一的跨平台的磁盘文件。 2.4、SQLite 是非常小的，是轻量级的，完全配置时小于 400KiB，省略可选功能配置时小于250KiB。

2023-11-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人