- 博客(11)
- 资源 (2)
- 收藏
- 关注
原创 spring-cloud 之没有注册,单存的springboot之间的访问
调用逻辑:consumer的路径:http://localhost:7901/userconsumer/1访问consumer项目配置的provider的访问路径:http://localhost:7900/simpleuser/1provider:启动类:@SpringBootApplicationpublic class SimpleProviderApp{ public static void main( String[] args ) { ...
2020-05-31 22:56:04 293
原创 spark实现word count程序
5.1 使用scala 实现wordcount程序object WordCount { def main(args:Array[String]): Unit ={ //1.创建sparkConf对象,设置appName和master地址,local[2]表示本地采用2个线程去执行 val sparkConf:SparkConf=new SparkConf().setAppName("wordCount").setMaster("local[2]") //2..
2020-05-30 19:03:33 476
原创 spark shell 执行命令
4.2.1通过spark-shell --master local[N] 读取本地数据文件实现单词统计--master local[N]Local表示本地运行,跟集群没有任何关系,方便做一些测试和学习。N表示一个正整数Local[N]表示本地采用N个线程去运行任务Spark-shell --master local[2] 它会产生一个spark submit 进程Spark-shell --master local[2] Sc.textFile(“file:///root/wo.
2020-05-30 15:00:22 849
原创 spark的组件组成部分介绍
1.Driver它会运行客户端写好的main方法,并且它会创建sparkcontext对象,该对象是所有spark程序的执行入口。2.Application它就是一个应用程序,它包括了Driver端的代码逻辑和任务在执行的时候需要的资源信息。3.clusterManager :它既是给当前任务提供计算资源的外部服务 standAlone 它是spark自带的集群模式,整个任务的资源分配由master负责 Yarn Sp...
2020-05-30 14:58:07 5296
原创 spark高可用集群的搭建
1 两种解决方案1基于文件系统的单点恢复,主要用于开发或者测试环境,spark提供目录保存spark application和worker的注册信息,并将它们的恢复状态写入该目录中。一旦master发生故障,就可以通过重新启动master进程(sbin/start-master.sh),恢复已运行的spark application和worker的注册信息。2基于zookeeper的standby masters:通过zk来选举一个master,其他master处于standby状态。整个选举恢复需
2020-05-30 12:01:52 396
原创 HBASE的集群搭建
4.1描述Hbase集群依赖hdfs,安装hbase集群,确保有hadoop集群,hbase启动之前确保hadoop已经启动。启动顺序:zk------------hadoop(hdfs-yarn)------hbase关闭顺序:hbase-------hadoop(yarn-hdfs)--------zk!!!!安装hbase之前确保已经安装haoop和zk4.2 hbase集群规划4.3 上传tar包4.4 解压tar包[root@meboth-maste..
2020-05-23 20:03:47 3862
原创 钉钉会议共享文件内容
#1 先打开ppt在打开ppt的第一页时候,f5 开始放映幻灯片共享窗口,选择大开幻灯片的桌面, 确定分享#2 先打开ppt, 共享窗口,选择打开的幻灯片桌面,按f5 播放幻灯片模式,确定分享。#结束共享点击右上角的结束共享按钮#确保自己演示时,共享窗口显示的是自己的画像先点击一下共享窗口,在关闭共享窗口#确保共享正确显示打开ppt,f5显示播放,alt+tab,选中钉钉窗口,打开共享窗口,然后选择有f5播放的那个ppt窗口(ppt可能有两个窗口,编辑模式,...
2020-05-14 14:54:27 3038
原创 决策树的代码实现
#!usr/bin/env python#-*- coding:utf-8 _*-'''@author:Administrator@file: decision_tree.py@time: 2020-05-11 下午 4:03'''import pandas as pdfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.model_selection import train_test_splitfrom .
2020-05-11 18:49:15 398 1
原创 决策树
一.决策树的构建决策树的构建主要是确定各个节点的排放顺序。排放顺序的的策略:这里有信息增益,增益比,基尼系数这3种。所以说信息增益,增益比,基尼系数决定着决策树的划分。选择信息增益最大的属性,作为根节点,依次递归排列。二.熵和信息熵通常使用“熵”来度量样本集合的纯度,“熵”就是物体内部的混乱程度,理论上“熵”的值越小,数据集的“纯度”越高,下面是“熵”的计算公式:Pk指的是第k类样本所占的比率。信息熵:指的是测试属性对于样本纯度的增益效果,值越大越好,计算公式为:信息增益=样本的.
2020-05-11 18:46:53 1776
原创 论文中word出现空白页以及固定一页开头的标题
####1。固定标题头部你可以在第三章的结尾添加一个“分页符”,在插入-分隔符-分页符,这样你更改的时候第四章标题就不会变动了。https://www.zybang.com/question/5328e171b371ce0a7358ea69a2cec534.html#####2.空白页https://baijiahao.baidu.com/s?id=1622174194967676998&wfr=spider&for=pc...
2020-05-09 11:55:03 2530
原创 spark 介绍以及集群搭建
1.1spark的介绍Spark是一种快速、通用、可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架,spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将spark部署在大量廉价的硬件之上,形成spark集群。Spark是基于内存计算的框架,计算速度非常快,但是需要注意到是,spark仅仅只涉及数据的计算,并没有涉及数据存储。(...
2020-05-07 14:34:36 410
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人