- 博客(31)
- 收藏
- 关注
转载 CentOS安装配置Cassandra
我们首先从Oracle官网下载JDK,根据系统选择对应的JDK版本,JDK8的下载地址为:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html,如下图所示,这里我选择:jdk-8u291-linux-x64.tar.gz。访问Cassandra官方网站,下载Cassandra并将其上传至服务器中。Cassandra的官网下载地址为:https://cassandra.apache.org/download/。
2024-09-17 16:51:05 460
原创 /hbase/WALs/desktop,xxxxxxxx-splitting is non empty: Directory is not empty
hdfs dfs -rm -r /hbase/WALs/*
2024-03-22 20:17:59 352
原创 Spark 基础教程
该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,直接运行在本地,便于调试,通常用来验证开发出来的应用程序逻辑上有没有问题。Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行 当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的Standalone模式。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。
2024-03-09 20:31:18 329
转载 X11-forwarding : ✗ (disabled or not supported by server)
这里ip后面接的0.0的第一个0表示图形界面显示的屏幕序号,从0-10,分别对应端口6000-6010(尝试过只开放端口,没成功)点击X server开启 x11 转发,127.0.0.1:0.0 下面为本地客户端ip,这时候,在服务器开启ip映射。关闭客户端防火墙(MobaxTerm运行的机器),或者开发特定端口(这个没成功,有知道的大佬欢迎留言)X11 中的 X 指的就是 X 协议;在服务器上运行一个要展示图形界面的程序,结果会是失败的。在服务器上运行一个要展示图形界面的程序,结果会是失败的。
2024-03-09 20:20:24 2027 1
原创 基于CentOS虚拟机的Spark分布式开发环境搭建
⦁ /Spark/spark-x.x.x-bin-hadoopx.x/conf/spark-env.sh (原来的文件名是spark-env.sh.template,修改为spark-env.sh)⦁ 输入命令,ssh-keygen -t rsa,生成key,都不输入密码,一直回车,/root就会生成.ssh文件夹,每台服务器都要设置。⦁ 把前面下载的“hadoop-x.x.x.tar.gz”文件,通过终端的sftp功能上传到虚拟机的目录: /Hadoop。
2024-03-09 20:01:19 1676
原创 swarmplot
sns.swarmplot(x=tips["total_bill"])以day为x轴,total_bill为y轴绘制分簇散点图sns.swarmplot(x="day", y="total_bill", data=tips)以day为x轴,total_bill为y轴,按照sex区分类别,绘制分簇散点图sns.swarmplot(x="day", y="total_bill", hue="sex", data=tips)以day为x轴,total_bill为y
2024-03-08 22:17:18 429 1
原创 ROC曲线:有关的基本概念
真正率(True Postive Rate) TPR: TP/(TP+FN) (召回率)分类器给出针对每个实例为正类的概率,通过设定一个阈值如0.5,概率大于等于0.5的为正类,随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负。假正率(False Postive Rate) FPR: FP/(FP+TN)阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。小于0.5的为负类。
2024-03-08 17:01:04 409 1
原创 Python--enumerate()函数
>> list(enumerate(seasons, start=1)) # 下标从 1 开始。返回 enumerate(枚举) 对象。
2024-03-08 16:47:00 346 1
原创 交叉验证 StratifiedKFold
StratifiedKFold函数采用分层划分的方法(分层随机抽样思想),验证集中不同类别占比与原始样本的比例保持一致,故StratifiedKFold在做划分的时候需要传入标签特征。shuffle:默认为False,表示是否需要打乱顺序,这个参数在很多的函数中都会涉及,如果设置为True,则会先打乱顺序再做划分,如果为False,会直接按照顺序做划分;random_state:默认为None,表示随机数的种子,只有当shuffle设置为True的时候才会生效。
2024-03-08 16:42:12 501 1
原创 随机森林模型
如下图所示,随机森林模型会在原始数据集中随机抽样,构成n个不同的样本数据集,然后根据这些数据集搭建n个不同的决策树模型,最后根据这些决策树模型的平均值(针对回归模型)或者投票(针对分类模型)情况来获取最终结果。举例来说,有1000个原始数据,有放回的抽取1000次,构成一组新的数据(因为是有放回抽取,有些数据可能被选中多次,有些数据可能不被选上),作为某一个决策树的数据来进行模型的训练。随机森林是一种元估计器,它在数据集的不同子样本上匹配许多决策树分类器,并使用平均来提高预测精度和控制过拟合。
2024-03-08 16:35:14 12789 1
原创 大数据挖掘笔记1
每组内,可以指定只求某一列的统计指标,包括平均数,方差等。function 可以是mean,或者std等。是Numpy中的函数,它的功能是读取矩阵的长度,比如shape[0]就是读取矩阵第一维度的长度。直接用.shape可以快速读取矩阵的形状,使用shape[0]读取矩阵第一维度的长度。
2024-03-08 16:16:47 346
原创 rucbase 任务一
off_t类型用于指示文件的偏移量,常就是long类型,其默认为一个32位的整数,在gcc编译中会被编译为long int类型,在64位的Linux系统中则会被编译为long long int,这是一个64位的整数,其定义在unistd.h头文件中可以查看。首先判断文件是否被创建,如果路径不存在抛出异常再判断文件是否已经打开,不能删除未关闭的文件,然后用unlink()函数关闭文件。SEEK_CUR:基准位置为文件当前位置,即offset表示距离文件当前位置的偏移量。1.offset表示文件指针的偏移量。
2024-03-08 14:29:08 595
原创 csapp 微壳tinyshell
shell:一个交互型应用级程序,代表用户运行其他程序。功能:shell应用程序提供了一个界面,用户通过访问这个界面访问操作系统内核的服务。处理流程:1)从终端读入输入的命令。2)将输入字符串切分获得所有的参数。3)如果是内置命令则立即执行。4)否则调用相应的程序执行。5)shell 应该接受键盘输入信号,并对这些信号进行相应处理。第3章 TinyShell的设计与实现总分45分3.1设计了解了信号的处理机制,对一些信号的函数有更深的了解了解了shell对命令行的处理机制。
2023-04-28 20:45:26 528 1
原创 hit 计算机系统大作业——程序人生
P2P:程序员在Windows或Linux环境下,利用编辑器敲入C语言代码(Program),然后利用gcc编译器对C语言程序执行编译命令:hello.c文件先经过预处理器cpp,生成hello.i文件,再经过编译器ccl生成hello.s汇编程序,然后经过汇编器as生成可重定位目标程序hello.o,最后通过链接器ld链接生成可执行文件hello。在Linux终端执行./hello命令,运行该可执行文件(Process)。
2023-04-24 21:44:03 690 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人