自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 【无标题】

Apache Spark 是一种开源的集群计算框架,用于快速处理大数据。它是由加州大学伯克利分校AMPLab 开发的,并于 2013 年开源。Spark 提供了一种高效、可扩展和易于使用的编程模型,支持多种编程语言,如 Scala、Java、Python 和 R。Spark 的核心是 Resilient Distributed Dataset(RDD),它是一个可以并行处理的分布式内存数据结构。RDD 可以通过多个操作进行转换和操作,从而实现对数据的高效处理和分析。这些操作包括过滤、映射、聚合、排序等。

2023-11-15 12:27:59 27

原创 Spark大数据快速运算实训三:虚拟机进行hadoop安装及配置+工作原理流程解释

Hadoop是一个开源框架,用于分布式存储和处理大型数据集。它基于Google的MapReduce算法和Google文件系统(GFS),旨在提供一种可扩展的、分布式的处理大数据集的平台。Hadoop包括两个核心组件:Hadoop分布式文件系统(HDFS)和Hadoop MapReduce。HDFS是一个可靠的分布式文件系统,用于存储大数据集,而Hadoop MapReduce则是一种用于处理HDFS中存储的数据的编程模型和计算框架。Hadoop被广泛用于大数据处理、数据仓库、日志分析、搜索和机器学习等领域。

2023-11-09 15:28:01 326 1

原创 数据结构题目合集一: 链表练习 | c++ | 附代码 | 打印输出<=N的所有整数+交集并集练习+小朋友报数。

n个小朋友编号为1,2,3,4,5,........,n;围城1圈,从1到3报数,报数为3的小朋友出队;出队后又重新从出队小朋友的下一个人开始报数(从1到3报数),报数为3的小朋友出队。重复这个过程,直到剩下1个小朋友,然后输出他的编号。单链表实现集合A和集合B的并和交。头插法创建单链表LA,尾插法创建单链表LB,然后实现集合的两种运算,结果保存在单链表里面并输出结果。提交可运行的源码文件,第一种方法:一重循环。

2023-11-08 09:54:58 46 1

原创 机器学习项目五:支持向量机(概念题+实操[附代码])

from sklearn.model_selection import train_test_split # 从scikit-learn中导train_test_split用于数据集划分。from sklearn.datasets import load_iris # 从scikit-learn中导入load_iris数据集。(3)求解对偶目标函数W(α),即可获得更新后的α_i、α_j。(2)选取一对需要更新的变量α_i、α_j。(1)固定α_i、α_j以外的参数。

2023-11-07 15:53:14 502

原创 机器学习项目四:贝叶斯模型(项目+概念题)

model = GaussianNB().fit(data_tr,target_tr) #模型训练。sum(pre==target_te)/len(target_te) # 精度。pre = model.predict(data_te) # 模型预测。iris = load_iris() # 鸢尾花数据。(4)以P(x│y_i )P(y_i)最大项作为x所属类别。(5)对每个类别计算P(x│y_i )P(y_i)(2)对每个特征属性计算所有划分的条件概率。(1)对每个类别计算P(y_i)

2023-11-06 08:45:45 541 1

原创 机器学习项目三:KNN算法

sklearn库有自带的数据集,sklearn.datasets.load_iris()可加载得到鸢尾花数据集。利用KNN算法实现对鸢尾花分类模型的构建及模型性能的基本评估。print('精确度评估结果为:',accuracy_score(label_te, pred))(2)返回前k个点出现频率最高的类别作为当前点的预测分类。(4)计算已知类别数据集中的点与当前点之间的距离。(1)确定前k个点所在类别对应的出现频率。(5)选取与当前点距离最小的k个点。(3)按照距离递增次序排序。

2023-11-03 10:08:06 41

原创 Spark大数据快速运算实训二:linux系统的配置基础操作

vi /etc/hostname #在hostname里面只需输入: s0766(也就是要修改的主机名)vim /etc/sudoers #在上一题的基础上继续操作,也就是在root用户下操作。spark ALL=(ALL) NOPASSWD:ALL #文件添加的句子。ls -l /home/ #这里是查看/home目录详细信息。passwd spark #输入密码是不会显示的,输完直接回车。cd apps #切换到/opt/apps目录下。

2023-11-02 14:43:15 297

原创 Spark大数据快速运算实训一:linux虚拟机安装及JAVA安装

因为下载java用到的是xshell,所以需要有xshell的运行环境。以下是代码合集,可以直接复制。图片是截图以及添加了说明。

2023-11-01 10:33:56 597 1

原创 爬虫案例一:BeautifulSoup库+request库--爬取学校官网信息

【代码】爬虫案例一:爬取学校官网信息。

2023-10-30 15:06:16 180

原创 机器学习项目二:(逻辑回归模型)掌握机器学习的通用流程

目录: 1、案例题 2、概念题研究生入学考试录取预测,构建一个逻辑回归模型对学生是否会被录取为研究生进行预测,并对构建出的模型性能进行简单评价(需用数据LogisticRegression.csv)。 2、概念题2.1 sklearn.model_selection中,哪个函数可实现训练集和测试集的划分? train_test_split2.2 测试误差与泛化误差的评估方法有:自助法,流出法,交叉验证法2.3 错误率:分类错误样本数占总样本数比例2.4 精度:1-错误率2.5 泛化

2023-10-30 13:27:16 268 1

原创 机器学习项目一:认识机器学习

回归的母的是为了找到最优拟合,通过回归算法得到是一个最优拟合线,这个线条可以最好的接近数据集中的各个点。模型通过训练集来学习数据的特征,产生一个模型,以便在之后的预测中使用。测试集时用于评估模型最终性能的数据集,它通常从原始数据集中划分出来的,与训练集和验证集互不重叠,测试集的作用是评估模型从未见过的数据上的性能,并判断模型是否足够准确。①分类问题输出的是物体所属的类别,回归问题输出的是物体的值。②分类问题输出的值是离散的,回归问题输出的值是连续的。③分类问题输出的值是定性的,回归问题输出的值是定量的。

2023-10-30 12:54:49 50

SQLite3下载工具及学习全教程(学习教程附链接)

一文掌握SQLite3基本用法: https://blog.csdn.net/gangtienaner/article/details/119575172 SQLite3使用全教程:https://www.runoob.com/sqlite/sqlite-intro.html 1、什么是SQLite? 1.1、SQLite是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。它是一个零配置的数据库,这意味着与其他数据库不一样,您不需要在系统中配置。 1.2、就像其他数据库,SQLite 引擎不是一个独立的进程,可以按应用程序需求进行静态或动态连接。SQLite 直接访问其存储文件。 2、为什么要用 SQLite? 2.1、不需要一个单独的服务器进程或操作的系统(无服务器的)。 2.2、SQLite 不需要配置,这意味着不需要安装或管理。 2.3、一个完整的 SQLite 数据库是存储在一个单一的跨平台的磁盘文件。 2.4、SQLite 是非常小的,是轻量级的,完全配置时小于 400KiB,省略可选功能配置时小于250KiB。

2023-11-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除