自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 spark MLlib中分类算法的具体操作

一、逻辑斯蒂回归分类器逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。任务描述:以iris数据集(iris)为例进行分析(iris下载地址:http://dblab.xmu.edu.cn/blog/wp-content/uploads/2017/03/iris.txt)iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包...

2022-05-25 14:50:59 754

原创 spark MLlib相关命令

一、本地向量命令:import org.apache.spark.ml.linalg.{Vector,Vectors}val dv : Vector = Vectors.dense(2.0,0.0,8.0)val sv1 : Vector = Vectors.sparse(3,Array(0,2),Array(2.0,8.0))val sv2 : Vector = Vectors.sparse(3,Seq((0,2.0),(2,8.0)))dv:创建一个稠密本地向量sv1创建一个稀疏

2022-05-25 11:12:39 523

原创 spark streaming流计算wordcount实例实现rdd队列流,套接字流,文件流

一、安装spark、spark集群的安装配置_古柯(●—●)的博客-CSDN博客_spark集群安装配置所有都在/home/GHL/Group/KYJ/mycode/streaming目录下编写代码二、 rdd队列流1、在目录/home/GHL/Group/KYJ/mycode/streaming/rddqueue目录下执行:mkdir -p src/main/scala2、在目录/home/GHL/Group/KYJ/mycode/streaming/rddqueue/src/

2022-05-24 11:48:22 516

原创 kafka +spark streaming 流计算wordcount实例实现

一、Kafka简介BrokerKafka集群包含一个或多个服务器,这种服务器被称为broker Topic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(物理上不同Topic的消息分开存储,逻辑上一个Topic的消息虽然保存于一个或多个broker上,但用户只需指定消息的Topic即可生产或消费数据而不必关心数据存于何处)PartitionPartition是物理上的概念,每个Topic包含一个或多个Partition。Producer负责发布消息

2022-05-24 11:15:21 502

原创 flink集群standalone 模式搭建

一:准备工作:1、下载flinkApache Flink: Downloads建议选择老一两个的版本,对应的版本,我选择的是:2、scala选择对应的版本,并安装好,这里可以我的博文:spark集群的安装配置_古柯(●—●)的博客-CSDN博客_spark集群安装3、下载与hadoopde 集成包这里注意选择自己对应的hadoop版本并确保hadoop集群可以使用。按爪个Hadoop的博文:hadoop基础hdfs集群的安装配置_古柯(●—●)的博客-CSD.

2022-05-07 14:16:22 930

原创 使用ycsb对hbase进行性能测试

一:预备知识:1、需要配置好hbase:配置hbase的文档:hbase分布式环境的安装配置_古柯(●—●)的博客-CSDN博客2、下载安装ycsb:解压代码:tar zxvf ycsb-hbase14-binding-0.17.0.tar.gz二、安装ycsb并测试1、配置环境变量.bashrc:执行:vi .bashrc在其中加入:#ycsbexport YCSB_HOME=/home/KYJ/soft/ycsb-hbase14-binding

2022-04-23 10:49:11 710

原创 hbase分布式环境的安装配置

一:预备知识1、节点安排2、hbase里的角色与作用client(包含访问hbase的接口并且维护catch来加快对hbase的访问)Zookeeper(保证任何时候集群里面只有一个master 存储所有的region入口 监控regionserver的上线和下线信息,并实时通知master 存储hbase的schema和table的元数据);Master:为regionserver分配region负责regionserver的负载平衡发现失效的regions...

2022-04-23 10:14:25 1567

原创 hadoop基础-Yarn的基本配置-详细过程

一、预备知识:1、yarn的角色及其在系统栈中的位置2、角色和交互1. Client 向ResourceManager(RM)提交作业,RM为该作业启动 AppMaster。在作业执行过程中,Client也可以通过RM结束作业。2. AppMaster(ApplicationMaster)向ResourceManager申请作业需要的计算资源(一组容器),计算任务结束后向RM登记释放容器的资源。3. NodeManager向ResourceManager汇报节点状态,领取待执行的任务

2022-04-22 14:39:06 4811

原创 python对csv文件和txt文件的读取和写入

一:读取txt文件1.1、文件的处理过程一般的文件处理过程(1)、打开文件:open()函数(2)、读取/写入文件:read()、readline()、readlines()、write()等。(3)、对读取的数据进行处理(4)、关闭文件:close()。对文件操作之前需要用open()函数打开文件,打开之后将返回一个文件对象(file,对象)。open函数的语法格式如下:file_object = open(file_name[,access_mode = "r",buff

2022-04-22 14:12:29 4814

原创 sbt安装配置与打包

一:安装配置1.下载安装包官网下载地址:sbt - Download将下载好的sbt-1.6.1.tgz解压到相应目录:/home/kyj/soft,这里我们使用版本为1.6.1,注意版本的选择2.解压安装包并放在/home/kyj/soft中:tar -zxvf sbt-1.6.1.tgz sbt3.文件赋予权限KYJ为系统用户,/home/KYJ/soft/sbt为sbt安装目录chown -R KYJ /home/KYJ/soft/sbt4.将位于sbt/bin下面的

2022-04-18 11:15:47 6596 2

原创 pandas数据载入与预处理

一:提出问题:哪些课程最受欢迎?什么类别的课程最受欢迎?人们更喜欢Harvard还是MITx的课?二:理解数据:数据来源: 数据竞赛平台KaggleYour Home for Data Science​www.kaggle.com/共有23个字段,一共290门在线课程。数据分为4种类型import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-s..

2022-04-14 13:51:08 1882

原创 linux免密登录操作

一:创建公钥与私钥ssh-keygen -t rsa二:之后进去后一直回车,执行cd /home/KYJ/.ssh在指定的位置使用ll查看公钥和私钥:三:将公钥发送給指定的机器ssh-copy-id -i ~/.ssh/id_rsa.pub westgisB091进去后输入密码即可。四:测试是否可以免密登录...

2022-03-31 21:00:12 1144

原创 hadoop基础hdfs集群的安装配置

一:准备工作1、每个节点创建相同的账号:账号名为自己名字的大写,我的时KYJ,清楚对应的ip地址和节点名称。节点安排如下:2、每种安装软件的安装版本:jdk 版本java version "1.8.0_271"maven 版本Apache Maven 3.6.1 (d66c9c0b3152b2e69ee9bac180bb8fcc8e6af555; 2019-04-05T03:00:29+08:00)hadoop 版本hadoop-2.7.63、对五台节点的KYJ账号进行.

2022-03-31 20:42:09 1982

原创 jupyter notebook 中使用pandas统计分析基础

一:pandas是基于numpy的数据分析模块,它提供了大量标准数据模型和高效操作大型数据集所需要的工具。可以说pandas时使用pyhton能够成为高效且强大的数据分析环境的重要因素之一。导入的方式:import pandas as pdpandas 有三种数据结构:series,dataframe 和panel series类似与数组,dataframe类似与表格,panel类似excel的多表单sheet以下内容主要是对一个文件的一个数据分析:用到的数据:二:

2022-03-30 21:38:33 8291 3

原创 python海龟制图的简单使用

一:在使用海归制图时,我们需要带入龟图包:import turtleimport 在python中为保留字,用来引入一个图库,名叫turtle也可以对turtle起别名:import turtle as tl 如果使用别名,那么以后如果使用到龟图,则用别名。以下问python 中turtle的一些方法turtle.setup(a,b,c,d) a,b,c,d都是数字,一般使用此方法来建立一个画布,并把🖊放在中点,a表示width,b表示height,c表示startx,d表示s

2022-03-30 20:33:45 2603

原创 使用anaconda中的jupyter notebook对python代码的编写

一:下载安装好软件anaconda此篇文章我将把编写的代码放在自己电脑的:F:\anaconda目录之下二:打开jupyter notebook1、在开始菜单中找到Anaconda Prompt,并打开:输入以下语句:之后会跳出一个网页 2、新建一个python3可以在F:\anaconda文件之下修改名字 3、简单语句的使用#python中输出语句print("python\nprogram")print(r"pyth...

2022-03-30 19:57:35 7072

原创 windows下anaconda的安装配置

一:安装准备:官网上下载安装包:官网下载自己想要的版本。我的安装包名是:Anaconda3-5.2.0-Windows-x86_64我将anaconda安装在:F:\Program Files\anaconda目录之下二:安装步骤:1、双击下载好的安装包2、点击next 3、点击I agree:选择all users 4、点击next 选择是,并修改路径为:F:\Program Files\anaconda,注意这里anac...

2022-03-30 19:33:24 1020

原创 kafka集群安装配置,外置zookeeper

一:准备工作: 1、集群划分: 2、安装包下载:Kafka安装包下载:Apache Kafka将安装包放在:/home/KYJ/soft文件下面Zookeeper安装包下载:http://zookeeper.apache.org将安装包放在:/home/KYJ/soft文件下面二:解压安装包使用命令:tar -zxvf kafka_2.12-3.0.0.tgztar -zxvf apache-zookeeper-3.7....

2022-03-29 22:54:46 3019 1

原创 spark集群的安装配置

在hadoop集群安装配置实现的情况下配置spark集群的方法:系数 机器名 IP地址 hdfs角色 spark角色 1 x-88 x.x.104.88 dn wk 2 x-89 x.x.104.89 dn wk 3 x-90 x.x.104.90 nn mt 4 x-91 x.x.104.91 dn wk 5 x-92 1x.x.104.92 d

2022-03-19 15:31:20 2372

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除