自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 系统找不到文件 hadoop

系统找不到文件 hadoop。系统找不到文件 hadoop。系统找不到文件 yarn。系统找不到文件 yarn。

2024-03-24 16:13:42 359

原创 idea maven配置

name>阿里云公共仓库</name>-- 配置阿里云 -->

2024-03-24 15:59:32 546

原创 maven配置hadoop的依赖

【代码】maven配置hadoop的依赖。

2024-03-24 15:55:28 352

原创 /hbase/WALs/desktop,xxxxxxxx-splitting is non empty: Directory is not empty

hdfs dfs -rm -r /hbase/WALs/*

2024-03-22 20:17:59 314

原创 hadoop fs -test的相关命令

【代码】hadoop fs -test的相关命令。

2024-03-20 18:44:29 249

原创 hdfs文件权限

hadoop fs -chmod -R 777 /sparkdata

2024-03-20 18:43:45 111

原创 sc is not defined怎么解决

创建Spark上下文。

2024-03-16 18:56:07 340

原创 连接Spark集群

查看任务端口4040。

2024-03-16 18:17:53 342 1

原创 Python开发Spark基础1

textFile()方法从文件系统中加载数据,创建RDD。

2024-03-11 19:22:34 453 1

原创 hadoop上传文件

hadoop fs -put /Hadoop/word.txt /sparkdata

2024-03-09 22:12:38 322

原创 Spark 基础教程

该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,直接运行在本地,便于调试,通常用来验证开发出来的应用程序逻辑上有没有问题。Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行 当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。

2024-03-09 20:31:18 310

原创 Hadoop spark jupyter lab端口

hadoop 端口9870。JupyterLab端口8888。spark 端口8080。

2024-03-09 20:31:01 318

转载 X11-forwarding : ✗ (disabled or not supported by server)

这里ip后面接的0.0的第一个0表示图形界面显示的屏幕序号,从0-10,分别对应端口6000-6010(尝试过只开放端口,没成功)点击X server开启 x11 转发,127.0.0.1:0.0 下面为本地客户端ip,这时候,在服务器开启ip映射。关闭客户端防火墙(MobaxTerm运行的机器),或者开发特定端口(这个没成功,有知道的大佬欢迎留言)X11 中的 X 指的就是 X 协议;在服务器上运行一个要展示图形界面的程序,结果会是失败的。在服务器上运行一个要展示图形界面的程序,结果会是失败的。

2024-03-09 20:20:24 257

原创 hadoop spark jupyterbook 打开过程

2917 Jpsjps3090 Jps。

2024-03-09 20:06:05 846

原创 基于CentOS虚拟机的Spark分布式开发环境搭建

⦁ /Spark/spark-x.x.x-bin-hadoopx.x/conf/spark-env.sh (原来的文件名是spark-env.sh.template,修改为spark-env.sh)⦁ 输入命令,ssh-keygen -t rsa,生成key,都不输入密码,一直回车,/root就会生成.ssh文件夹,每台服务器都要设置。⦁ 把前面下载的“hadoop-x.x.x.tar.gz”文件,通过终端的sftp功能上传到虚拟机的目录: /Hadoop。

2024-03-09 20:01:19 811

原创 swarmplot

sns.swarmplot(x=tips["total_bill"])以day为x轴,total_bill为y轴绘制分簇散点图sns.swarmplot(x="day", y="total_bill", data=tips)以day为x轴,total_bill为y轴,按照sex区分类别,绘制分簇散点图sns.swarmplot(x="day", y="total_bill", hue="sex", data=tips)以day为x轴,total_bill为y

2024-03-08 22:17:18 343 1

原创 pairplot

用于控制非对角线上的图的类型,可选。pairplot主要的参数及其用法。:控制对角线上的图的类型,可选。

2024-03-08 22:12:01 328 1

转载 seaborn.jointplot

【代码】seaborn.jointplot。

2024-03-08 21:31:59 15 1

转载 可视化与特征构造

有4种方式:'bar,barstacked,step,stepfilled'。类似hist中bin size。

2024-03-08 19:46:32 9 1

原创 ROC曲线:有关的基本概念

真正率(True Postive Rate) TPR: TP/(TP+FN) (召回率)分类器给出针对每个实例为正类的概率,通过设定一个阈值如0.5,概率大于等于0.5的为正类,随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负。假正率(False Postive Rate) FPR: FP/(FP+TN)阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。小于0.5的为负类。

2024-03-08 17:01:04 378 1

原创 Python--enumerate()函数

>> list(enumerate(seasons, start=1)) # 下标从 1 开始。返回 enumerate(枚举) 对象。

2024-03-08 16:47:00 330 1

原创 交叉验证 StratifiedKFold

StratifiedKFold函数采用分层划分的方法(分层随机抽样思想),验证集中不同类别占比与原始样本的比例保持一致,故StratifiedKFold在做划分的时候需要传入标签特征。shuffle:默认为False,表示是否需要打乱顺序,这个参数在很多的函数中都会涉及,如果设置为True,则会先打乱顺序再做划分,如果为False,会直接按照顺序做划分;random_state:默认为None,表示随机数的种子,只有当shuffle设置为True的时候才会生效。

2024-03-08 16:42:12 366 1

原创 随机森林模型

如下图所示,随机森林模型会在原始数据集中随机抽样,构成n个不同的样本数据集,然后根据这些数据集搭建n个不同的决策树模型,最后根据这些决策树模型的平均值(针对回归模型)或者投票(针对分类模型)情况来获取最终结果。举例来说,有1000个原始数据,有放回的抽取1000次,构成一组新的数据(因为是有放回抽取,有些数据可能被选中多次,有些数据可能不被选上),作为某一个决策树的数据来进行模型的训练。随机森林是一种元估计器,它在数据集的不同子样本上匹配许多决策树分类器,并使用平均来提高预测精度和控制过拟合。

2024-03-08 16:35:14 2843 1

原创 大数据挖掘笔记1

每组内,可以指定只求某一列的统计指标,包括平均数,方差等。function 可以是mean,或者std等。是Numpy中的函数,它的功能是读取矩阵的长度,比如shape[0]就是读取矩阵第一维度的长度。直接用.shape可以快速读取矩阵的形状,使用shape[0]读取矩阵第一维度的长度。

2024-03-08 16:16:47 309

原创 rucbase 任务一

off_t类型用于指示文件的偏移量,常就是long类型,其默认为一个32位的整数,在gcc编译中会被编译为long int类型,在64位的Linux系统中则会被编译为long long int,这是一个64位的整数,其定义在unistd.h头文件中可以查看。首先判断文件是否被创建,如果路径不存在抛出异常再判断文件是否已经打开,不能删除未关闭的文件,然后用unlink()函数关闭文件。SEEK_CUR:基准位置为文件当前位置,即offset表示距离文件当前位置的偏移量。1.offset表示文件指针的偏移量。

2024-03-08 14:29:08 391

原创 csapp 微壳tinyshell

shell:一个交互型应用级程序,代表用户运行其他程序。功能:shell应用程序提供了一个界面,用户通过访问这个界面访问操作系统内核的服务。处理流程:1)从终端读入输入的命令。2)将输入字符串切分获得所有的参数。3)如果是内置命令则立即执行。4)否则调用相应的程序执行。5)shell 应该接受键盘输入信号,并对这些信号进行相应处理。第3章 TinyShell的设计与实现总分45分3.1设计了解了信号的处理机制,对一些信号的函数有更深的了解了解了shell对命令行的处理机制。

2023-04-28 20:45:26 378 1

原创 hit 计算机系统大作业——程序人生

P2P:程序员在Windows或Linux环境下,利用编辑器敲入C语言代码(Program),然后利用gcc编译器对C语言程序执行编译命令:hello.c文件先经过预处理器cpp,生成hello.i文件,再经过编译器ccl生成hello.s汇编程序,然后经过汇编器as生成可重定位目标程序hello.o,最后通过链接器ld链接生成可执行文件hello。在Linux终端执行./hello命令,运行该可执行文件(Process)。

2023-04-24 21:44:03 442 2

spark课程作业ppt

spark课程作业ppt

2024-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除