浮光之海~-CSDN博客

原创虚拟机设置代理

1. 临时设置代理（仅当前会话有效）打开终端并运行以下命令：bash复制export http_proxy=http://127.0.0.1:7890export export https_proxy=http://127.0.0.1:7890。

2025-02-21 18:19:41 612

我们首先从Oracle官网下载JDK，根据系统选择对应的JDK版本，JDK8的下载地址为：https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html，如下图所示，这里我选择：jdk-8u291-linux-x64.tar.gz。访问Cassandra官方网站，下载Cassandra并将其上传至服务器中。Cassandra的官网下载地址为：https://cassandra.apache.org/download/。

2024-09-17 16:51:05 746

原创 centos更改静态ip

点击网络和internet设置。

2024-09-16 22:43:09 566

原创系统找不到文件 hadoop

系统找不到文件 hadoop。系统找不到文件 hadoop。系统找不到文件 yarn。系统找不到文件 yarn。

2024-03-24 16:13:42 450

原创 idea maven配置

name>阿里云公共仓库</name>-- 配置阿里云 -->

2024-03-24 15:59:32 1042

原创 maven配置hadoop的依赖

【代码】maven配置hadoop的依赖。

2024-03-24 15:55:28 1076

原创 /hbase/WALs/desktop,xxxxxxxx-splitting is non empty: Directory is not empty

hdfs dfs -rm -r /hbase/WALs/*

2024-03-22 20:17:59 446

原创 hadoop fs -test的相关命令

【代码】hadoop fs -test的相关命令。

2024-03-20 18:44:29 497

原创 hdfs文件权限

hadoop fs -chmod -R 777 /sparkdata

2024-03-20 18:43:45 195

原创 sc is not defined怎么解决

创建Spark上下文。

2024-03-16 18:56:07 589

原创连接Spark集群

查看任务端口4040。

2024-03-16 18:17:53 496 1

原创 Python开发Spark基础1

textFile()方法从文件系统中加载数据，创建RDD。

2024-03-11 19:22:34 552 1

原创 hadoop上传文件

hadoop fs -put /Hadoop/word.txt /sparkdata

2024-03-09 22:12:38 382

原创 Spark 基础教程

该模式被称为Local[N]模式，是用单机的多个线程来模拟Spark分布式计算，直接运行在本地，便于调试，通常用来验证开发出来的应用程序逻辑上有没有问题。Spark的运行模式多种多样，灵活多变，部署在单机上时，既可以用本地模式运行，也可以用伪分布模式运行当以分布式集群的方式部署时，也有众多的运行模式可供选择，这取决于集群的实际情况，底层的资源调度即可以依赖外部资源调度框架，也可以使用Spark内建的Standalone模式。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。

2024-03-09 20:31:18 381

原创 Hadoop spark jupyter lab端口

hadoop 端口9870。JupyterLab端口8888。spark 端口8080。

2024-03-09 20:31:01 417

转载 X11-forwarding : ✗ (disabled or not supported by server)

这里ip后面接的0.0的第一个0表示图形界面显示的屏幕序号，从0-10，分别对应端口6000-6010（尝试过只开放端口，没成功）点击X server开启 x11 转发，127.0.0.1：0.0 下面为本地客户端ip，这时候，在服务器开启ip映射。关闭客户端防火墙（MobaxTerm运行的机器），或者开发特定端口（这个没成功，有知道的大佬欢迎留言）X11 中的 X 指的就是 X 协议；在服务器上运行一个要展示图形界面的程序，结果会是失败的。在服务器上运行一个要展示图形界面的程序，结果会是失败的。

2024-03-09 20:20:24 4546 2

原创 hadoop spark jupyterbook 打开过程

2917 Jpsjps3090 Jps。

2024-03-09 20:06:05 2008

原创基于CentOS虚拟机的Spark分布式开发环境搭建

⦁ /Spark/spark-x.x.x-bin-hadoopx.x/conf/spark-env.sh （原来的文件名是spark-env.sh.template，修改为spark-env.sh）⦁ 输入命令，ssh-keygen -t rsa，生成key，都不输入密码，一直回车，/root就会生成.ssh文件夹，每台服务器都要设置。⦁ 把前面下载的“hadoop-x.x.x.tar.gz”文件，通过终端的sftp功能上传到虚拟机的目录: /Hadoop。

2024-03-09 20:01:19 2027

原创 swarmplot

sns.swarmplot(x=tips["total_bill"])以day为x轴，total_bill为y轴绘制分簇散点图sns.swarmplot(x="day", y="total_bill", data=tips)以day为x轴，total_bill为y轴，按照sex区分类别，绘制分簇散点图sns.swarmplot(x="day", y="total_bill", hue="sex", data=tips)以day为x轴，total_bill为y

2024-03-08 22:17:18 586 1

原创 pairplot

用于控制非对角线上的图的类型，可选。pairplot主要的参数及其用法。：控制对角线上的图的类型，可选。

2024-03-08 22:12:01 710 1

转载 seaborn.jointplot

【代码】seaborn.jointplot。

2024-03-08 21:31:59 231 1

转载可视化与特征构造

有4种方式：'bar,barstacked,step,stepfilled'。类似hist中bin size。

2024-03-08 19:46:32 65 1

原创 ROC曲线：有关的基本概念

真正率(True Postive Rate) TPR: TP/(TP+FN) (召回率)分类器给出针对每个实例为正类的概率，通过设定一个阈值如0.5，概率大于等于0.5的为正类，随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负。假正率(False Postive Rate) FPR: FP/(FP+TN)阈值最大时，对应坐标点为(0,0),阈值最小时，对应坐标点(1,1)。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。小于0.5的为负类。

2024-03-08 17:01:04 662 1

原创 Python--enumerate()函数

>> list(enumerate(seasons, start=1)) # 下标从 1 开始。返回 enumerate(枚举) 对象。

2024-03-08 16:47:00 390 1

原创交叉验证 StratifiedKFold

StratifiedKFold函数采用分层划分的方法（分层随机抽样思想），验证集中不同类别占比与原始样本的比例保持一致，故StratifiedKFold在做划分的时候需要传入标签特征。shuffle：默认为False，表示是否需要打乱顺序，这个参数在很多的函数中都会涉及，如果设置为True，则会先打乱顺序再做划分，如果为False，会直接按照顺序做划分；random_state：默认为None，表示随机数的种子，只有当shuffle设置为True的时候才会生效。

2024-03-08 16:42:12 854 1

原创随机森林模型

如下图所示，随机森林模型会在原始数据集中随机抽样，构成n个不同的样本数据集，然后根据这些数据集搭建n个不同的决策树模型，最后根据这些决策树模型的平均值（针对回归模型）或者投票（针对分类模型）情况来获取最终结果。举例来说，有1000个原始数据，有放回的抽取1000次，构成一组新的数据（因为是有放回抽取，有些数据可能被选中多次，有些数据可能不被选上），作为某一个决策树的数据来进行模型的训练。随机森林是一种元估计器，它在数据集的不同子样本上匹配许多决策树分类器，并使用平均来提高预测精度和控制过拟合。

2024-03-08 16:35:14 26073 1

原创大数据挖掘笔记1

每组内，可以指定只求某一列的统计指标，包括平均数，方差等。function 可以是mean，或者std等。是Numpy中的函数，它的功能是读取矩阵的长度，比如shape[0]就是读取矩阵第一维度的长度。直接用.shape可以快速读取矩阵的形状，使用shape[0]读取矩阵第一维度的长度。

2024-03-08 16:16:47 508 1

原创 rucbase 任务一

off_t类型用于指示文件的偏移量，常就是long类型，其默认为一个32位的整数，在gcc编译中会被编译为long int类型，在64位的Linux系统中则会被编译为long long int，这是一个64位的整数，其定义在unistd.h头文件中可以查看。首先判断文件是否被创建，如果路径不存在抛出异常再判断文件是否已经打开，不能删除未关闭的文件，然后用unlink（）函数关闭文件。SEEK_CUR：基准位置为文件当前位置，即offset表示距离文件当前位置的偏移量。1.offset表示文件指针的偏移量。

2024-03-08 14:29:08 968 1

原创 csapp 微壳tinyshell

shell：一个交互型应用级程序，代表用户运行其他程序。功能：shell应用程序提供了一个界面，用户通过访问这个界面访问操作系统内核的服务。处理流程：1）从终端读入输入的命令。2）将输入字符串切分获得所有的参数。3）如果是内置命令则立即执行。4）否则调用相应的程序执行。5）shell 应该接受键盘输入信号，并对这些信号进行相应处理。第3章 TinyShell的设计与实现总分45分3.1设计了解了信号的处理机制，对一些信号的函数有更深的了解了解了shell对命令行的处理机制。

2023-04-28 20:45:26 774 1

原创 hit 计算机系统大作业——程序人生

P2P：程序员在Windows或Linux环境下，利用编辑器敲入C语言代码（Program），然后利用gcc编译器对C语言程序执行编译命令：hello.c文件先经过预处理器cpp，生成hello.i文件，再经过编译器ccl生成hello.s汇编程序，然后经过汇编器as生成可重定位目标程序hello.o，最后通过链接器ld链接生成可执行文件hello。在Linux终端执行./hello命令，运行该可执行文件（Process）。

2023-04-24 21:44:03 1109 3

m0_62224692的博客

原创如何将编译好的默认调用