古柯(●—●)-CSDN博客

原创 spark MLlib中分类算法的具体操作

一、逻辑斯蒂回归分类器逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。任务描述：以iris数据集（iris）为例进行分析（iris下载地址：http://dblab.xmu.edu.cn/blog/wp-content/uploads/2017/03/iris.txt）iris以鸢尾花的特征作为数据来源，数据集包含150个数据集，分为3类，每类50个数据，每个数据包...

2022-05-25 14:50:59 829

原创 spark MLlib相关命令

一、本地向量命令：import org.apache.spark.ml.linalg.{Vector,Vectors}val dv : Vector = Vectors.dense(2.0,0.0,8.0)val sv1 : Vector = Vectors.sparse(3,Array(0,2),Array(2.0,8.0))val sv2 : Vector = Vectors.sparse(3,Seq((0,2.0),(2,8.0)))dv:创建一个稠密本地向量sv1创建一个稀疏

2022-05-25 11:12:39 573

原创 spark streaming流计算wordcount实例实现rdd队列流，套接字流，文件流

一、安装spark、spark集群的安装配置_古柯(●—●)的博客-CSDN博客_spark集群安装配置所有都在/home/GHL/Group/KYJ/mycode/streaming目录下编写代码二、 rdd队列流1、在目录/home/GHL/Group/KYJ/mycode/streaming/rddqueue目录下执行：mkdir -p src/main/scala2、在目录/home/GHL/Group/KYJ/mycode/streaming/rddqueue/src/

2022-05-24 11:48:22 549

原创 kafka +spark streaming 流计算wordcount实例实现

一、Kafka简介BrokerKafka集群包含一个或多个服务器，这种服务器被称为broker Topic每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个或多个broker上，但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处）PartitionPartition是物理上的概念，每个Topic包含一个或多个Partition。Producer负责发布消息

2022-05-24 11:15:21 556

原创 flink集群standalone 模式搭建

一：准备工作：1、下载flinkApache Flink: Downloads建议选择老一两个的版本，对应的版本，我选择的是：2、scala选择对应的版本，并安装好，这里可以我的博文：spark集群的安装配置_古柯(●—●)的博客-CSDN博客_spark集群安装3、下载与hadoopde 集成包这里注意选择自己对应的hadoop版本并确保hadoop集群可以使用。按爪个Hadoop的博文：hadoop基础hdfs集群的安装配置_古柯(●—●)的博客-CSD.

2022-05-07 14:16:22 952

原创使用ycsb对hbase进行性能测试

一：预备知识：1、需要配置好hbase:配置hbase的文档：hbase分布式环境的安装配置_古柯(●—●)的博客-CSDN博客2、下载安装ycsb:解压代码：tar zxvf ycsb-hbase14-binding-0.17.0.tar.gz二、安装ycsb并测试1、配置环境变量.bashrc:执行：vi .bashrc在其中加入：#ycsbexport YCSB_HOME=/home/KYJ/soft/ycsb-hbase14-binding

2022-04-23 10:49:11 743

原创 hbase分布式环境的安装配置

一：预备知识1、节点安排2、hbase里的角色与作用client（包含访问hbase的接口并且维护catch来加快对hbase的访问）Zookeeper(保证任何时候集群里面只有一个master 存储所有的region入口监控regionserver的上线和下线信息，并实时通知master 存储hbase的schema和table的元数据)；Master：为regionserver分配region负责regionserver的负载平衡发现失效的regions...

2022-04-23 10:14:25 1602

原创 hadoop基础-Yarn的基本配置-详细过程

一、预备知识：1、yarn的角色及其在系统栈中的位置2、角色和交互1. Client 向ResourceManager(RM)提交作业，RM为该作业启动 AppMaster。在作业执行过程中，Client也可以通过RM结束作业。2. AppMaster(ApplicationMaster)向ResourceManager申请作业需要的计算资源(一组容器)，计算任务结束后向RM登记释放容器的资源。3. NodeManager向ResourceManager汇报节点状态，领取待执行的任务

2022-04-22 14:39:06 4869

原创 python对csv文件和txt文件的读取和写入

一：读取txt文件1.1、文件的处理过程一般的文件处理过程（1）、打开文件：open()函数（2）、读取/写入文件：read()、readline()、readlines()、write()等。（3）、对读取的数据进行处理（4）、关闭文件：close()。对文件操作之前需要用open()函数打开文件，打开之后将返回一个文件对象（file,对象）。open函数的语法格式如下：file_object = open(file_name[,access_mode = "r",buff

2022-04-22 14:12:29 4916

原创 sbt安装配置与打包

一：安装配置1.下载安装包官网下载地址：sbt - Download将下载好的sbt-1.6.1.tgz解压到相应目录：/home/kyj/soft，这里我们使用版本为1.6.1，注意版本的选择2.解压安装包并放在/home/kyj/soft中：tar -zxvf sbt-1.6.1.tgz sbt3.文件赋予权限KYJ为系统用户，/home/KYJ/soft/sbt为sbt安装目录chown -R KYJ /home/KYJ/soft/sbt4.将位于sbt/bin下面的

2022-04-18 11:15:47 6752 2

原创 pandas数据载入与预处理

一：提出问题：哪些课程最受欢迎？什么类别的课程最受欢迎？人们更喜欢Harvard还是MITx的课？二：理解数据：数据来源：数据竞赛平台KaggleYour Home for Data Sciencewww.kaggle.com/共有23个字段，一共290门在线课程。数据分为4种类型import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-s..

2022-04-14 13:51:08 1927

原创 linux免密登录操作

一：创建公钥与私钥ssh-keygen -t rsa二：之后进去后一直回车，执行cd /home/KYJ/.ssh在指定的位置使用ll查看公钥和私钥：三：将公钥发送給指定的机器ssh-copy-id -i ~/.ssh/id_rsa.pub westgisB091进去后输入密码即可。四：测试是否可以免密登录...

2022-03-31 21:00:12 1160

原创 hadoop基础hdfs集群的安装配置

一：准备工作1、每个节点创建相同的账号：账号名为自己名字的大写，我的时KYJ，清楚对应的ip地址和节点名称。节点安排如下：2、每种安装软件的安装版本：jdk 版本java version "1.8.0_271"maven 版本Apache Maven 3.6.1 (d66c9c0b3152b2e69ee9bac180bb8fcc8e6af555; 2019-04-05T03:00:29+08:00)hadoop 版本hadoop-2.7.63、对五台节点的KYJ账号进行.

2022-03-31 20:42:09 2013

原创 jupyter notebook 中使用pandas统计分析基础

一：pandas是基于numpy的数据分析模块，它提供了大量标准数据模型和高效操作大型数据集所需要的工具。可以说pandas时使用pyhton能够成为高效且强大的数据分析环境的重要因素之一。导入的方式：import pandas as pdpandas 有三种数据结构：series，dataframe 和panel series类似与数组，dataframe类似与表格，panel类似excel的多表单sheet以下内容主要是对一个文件的一个数据分析：用到的数据：二：

2022-03-30 21:38:33 8681 3

原创 python海龟制图的简单使用

一：在使用海归制图时，我们需要带入龟图包：import turtleimport 在python中为保留字，用来引入一个图库，名叫turtle也可以对turtle起别名：import turtle as tl 如果使用别名，那么以后如果使用到龟图，则用别名。以下问python 中turtle的一些方法turtle.setup(a,b,c,d) a,b,c,d都是数字，一般使用此方法来建立一个画布，并把🖊放在中点，a表示width，b表示height，c表示startx,d表示s

2022-03-30 20:33:45 2656

原创使用anaconda中的jupyter notebook对python代码的编写

一：下载安装好软件anaconda此篇文章我将把编写的代码放在自己电脑的：F:\anaconda目录之下二：打开jupyter notebook1、在开始菜单中找到Anaconda Prompt,并打开：输入以下语句：之后会跳出一个网页 2、新建一个python3可以在F:\anaconda文件之下修改名字 3、简单语句的使用#python中输出语句print("python\nprogram")print(r"pyth...

2022-03-30 19:57:35 7274

原创 windows下anaconda的安装配置

一：安装准备：官网上下载安装包：官网下载自己想要的版本。我的安装包名是：Anaconda3-5.2.0-Windows-x86_64我将anaconda安装在：F:\Program Files\anaconda目录之下二：安装步骤：1、双击下载好的安装包2、点击next 3、点击I agree:选择all users 4、点击next 选择是，并修改路径为：F:\Program Files\anaconda,注意这里anac...

2022-03-30 19:33:24 1048

原创 kafka集群安装配置，外置zookeeper

一：准备工作： 1、集群划分： 2、安装包下载：Kafka安装包下载：Apache Kafka将安装包放在:/home/KYJ/soft文件下面Zookeeper安装包下载：http://zookeeper.apache.org将安装包放在：/home/KYJ/soft文件下面二：解压安装包使用命令：tar -zxvf kafka_2.12-3.0.0.tgztar -zxvf apache-zookeeper-3.7....

2022-03-29 22:54:46 3056 1

原创 spark集群的安装配置

在hadoop集群安装配置实现的情况下配置spark集群的方法：系数机器名 IP地址 hdfs角色 spark角色 1 x-88 x.x.104.88 dn wk 2 x-89 x.x.104.89 dn wk 3 x-90 x.x.104.90 nn mt 4 x-91 x.x.104.91 dn wk 5 x-92 1x.x.104.92 d

2022-03-19 15:31:20 2408

kyj3518861703的博客