自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 读pytroch使用resnet18网络的代码

读读pytorch中调用resnet18的代码

2022-10-11 22:45:08 2913 1

原创 【c++练习题】c++数组实现多项式的加减法

很久没写代码了偶然看到这么个题做了做。题目要求是利用结构体数组创建一元多项式,并实现多项式的加减。

2022-06-09 01:39:42 774

原创 scala学习笔记之模式匹配

Scala学习笔记模式匹配模式匹配类似于java中的switch语法,但是要更加强大。在模式匹配中,采用match关键字,每个分支采用case关键字进行声明,当需要匹配时,会从第一个case分支开始,如果成功,那么执行对应的逻辑代码,反之则继续执行下一个分支进行判断。如果所有的case都不成功,则会执行case _分支,类似于switch语法中的default语句。基本语法:/**a match {case '1' => print(1)case '2' => pri

2021-03-08 15:40:51 173

原创 scala学习之scala中一些集合的常用函数

scala学习集合常用函数集合的基本属性与常用操作长度、大小、循环遍历、迭代器、生成字符串、是否有包含等object TestSetFunction { def main(args: Array[String]): Unit = { val list = List(1,2,3,4,5,6,7,8,9) // 长度 println(list.length) // 集合大小 println(list.size) //遍历 list.for

2021-02-25 16:25:20 217

原创 scala学习之scala中的集合类型

scala学习集合scala的集合有三大类:序列Seq、集Set、映射Map。所有的集合都拓展自Iterable特质对于几乎所有的集合类,scala都同时提供了可变和不可变的版本,分别位于如下包:不可变集合:scala.collection.immutable对于不可变集合,其对象不可修改,每次修改都是返回一个新对象。可变集合: scala.collection.mutable对于可变集合,其对象是可以修改的,每次修改就是直接对其对象进行修改,不会创建新的对象不可

2021-01-14 17:40:57 514

原创 scala学习之面向对象编程

scala学习面向对象编程scala中的包scala包的作用与java一样,命名规则也相同scala的包与java不同的在于,他自有一套不同于java的包管理风格,即通过嵌套的风格表示层级关系:package outPackage{ package innerPackage{ }}该风格有如下特点:一个源文件可以有多个package子包中的类可以直接访问父包中的内容而无需导包包对象:在scala中可以为每个包定义一个同名的包对象,定义在包对象中的成员,

2021-01-07 17:41:33 416

原创 scala学习之函数式编程

scala学习函数式编程函数式编程与面向对象编程面向对象编程:解决问题,分解对象,行为,属性,然后通过对象的关系以及行为的调用来解决问题。函数式编程:解决问题时,将问题分解成一个一个的步骤,将每个步骤进行封装(函数),通过调用这些封装好的步骤,解决问题。scala即是一个完全面向对象编程语言,也是一个完全函数式编程语言。函数的基本语法基本语法:def 函数名(参数:参数类型,……):函数返回类型 = { 函数体 }函数声明: // 无参 无返回值 def func

2021-01-06 14:36:11 180 1

原创 scala学习之条件分支与循环控制

scala学习条件分支if-else语句基本语法同java在scala中,每一条语句都有其返回值,if-else语句也不例外,其返回值为满足条件的代码体中最后一句语句的返回值因此scala取消了三元运算符,因为其可以直接用if-else语句实现,实现方法如下:// java// a?1:2// scalaif (a) 1 else 2switch语句scala中取消了switch语句,通过模式匹配来处理类似需求循环控制for循环scala为for循环提供

2021-01-05 20:41:04 212

原创 scala学习之scala中的运算符

scala学习scala中的运算符算术运算符基本语法:运算符运算范例结果+正号+33-负号b=4; -b-4+加5+510-减6-42*乘3*412/除5/51%取模(取余)7%52+字符串相加“He”+”llo”“Hello”关系运算符(比较运算符)基本语法:运算符运算范例结果==相等于4==3false!=不等于4!=3

2021-01-05 17:04:05 442

原创 scala学习之scala中的变量和数据类型

scala学习scala中的变量标识符:scala对各种变量、方法、函数等命名时使用的字符序列统称为标识符。我们可以简单的理解为凡是自己可以起名字的地方都叫标识符。标识符的命名规范scala中的命名规范基本和java一致,但是包含一些细节上的变化。其包含以下四种规则:1. 以字母或下划线开头,后接字母、数字、下划线2. 以操作符开头,且只包括操作符(+-*/#!等)3. 第一种与第二种拼接,且第一种在前,二者以下划线分隔4. 用反引号包括的任意字符串,即使是39个关键字也可以s

2021-01-05 15:46:51 153

原创 大数据学习笔记之scala入门

简单了解Scala概述spark作为新一代的内存级大数据计算框架,是大数据的重要内容。而spark就是由scala进行编写的,为了更好的学习spark,scala语言编程是不可或缺的一项技能。Scala可以与Java互操作。它用scalac这个编译器把源文件编译成Java的class文件(即在JVM上运行的字节码)。你可以从Scala中调用所有的Java类库,也同样可以从Java应用程序中调用Scala的代码。scala和java的关系一般而言,我们会认为scala语言是基于java语言的。

2021-01-04 16:22:55 268

原创 secureCRT下vi编辑器按上下左右键时出现ABCD的问题

我在网上看到了两种说法,这里展示我最终解决的办法在选项-会话选项中终端-仿真-模式下把两个光标键模式都取消勾选,如图:注意初始模式和当前模式都要更改。保存退出之后再打开vi编辑器,就可以正常使用方向键了。...

2020-12-28 17:12:27 1218

原创 大数据学习笔记--简单认识druid

druid简介Druid是一个快速的列式分布式的支持实时分析的数据存储系统,其在处理pb级数据、毫秒级查询、数据实时处理方面,比传统的OLAP系统有了显著的性能改进。注意与阿里巴巴的数据库连接池同名项目druid做区分,两者没有任何关联。druid的特点列式存储格式:druid使用面向列的存储,它只需要加载特定查询所需要的列,所以查询速度很快可扩展的分布式系统:druid通常部署在数十到数百台服务器的集群中,并提供数百万条每秒的摄取率,保留数百万条记录,以及亚秒级到秒级查询延迟

2020-10-31 15:51:20 140

原创 大数据学习笔记--一些数据仓库里的基本概念

一些数据仓库的基本概念数仓分层:数据仓库一半都是默认分4层:ODS(Operation Data Store)层(原始数据层原始数据层,直接加载原始日志、数据,数据保存原貌不做处理DWD(Data Warehouse Detail)层(明细数据层明细数据层,结构和粒度与原始表保持一致,对ODS层数据进行清洗,也叫DWI层DWS(Data Warehouse service)层(服务数据层服务数据层,以DWD为基础,进行轻度汇总,一般聚集到以用户当日、设备当日、商家当日、商品当

2020-10-17 14:33:33 474

原创 大数据学习笔记-hbase中的简单shell命令操作

hbase的shell操作:进入hbase shell命令行界面:[kgg@hadoop201 hbase]$ bin/hbase shell表的操作list查看表hbase(main):001:0> listTABLE 0 row(s) in 0.1380 secon

2020-10-15 20:50:58 303

原创 大数据学习笔记--简单了解hbase

hbase基础NoSQL(not only sql)当数据达到几千万甚至几亿条的时候,传统关系型数据库的性能会明显下降CAP定理:CAP定理即Consistency Availability and Partition toleranceConsistency(强一致性):数据更新操作的一致性,所有数据变动都是同步的Availability(高可用性):良好的响应性能Partition tolerance(高分区容错性):可靠性所谓CAP定理即任何分布式系统只可能同时满足两点,不可

2020-10-15 19:45:37 152

原创 大数据学习笔记-2020-10-13--kafka工作流程

kafka工作流程生产过程写入方式:producer采用推(push)的方式将消息发布到broker,每条消息都被追加(append)到分区(partition)中,属于顺序写磁盘,效率高于随机写内存,提升了kafka的吞吐量分区:消息都发送到一个topic中,其本质是一个目录,而topic是由一个partition logs分区日志组成,其中每一个partition中的消息都是有序的,而消息是不断追加到partition log上,其中每一个消息都被赋予了一个唯一的offset。分区的

2020-10-13 17:39:10 76

原创 大数据学习笔记-2020-10-09--flume自定义source--mysqlsource案例

自定义source案例:自定义mysqlSourcesource是负责接收数据到flume agent的组件,flume本身提供了各种各样的source用于处理各式各样的需求,但是在有些时候还是不能很好的实现我们自身的需求,这种时候就需要我们自定义source来实现根据官方的闻到那,自定义一个MYSQLSource需要继承AbstractSource类并实现Configurable和PollableSource接口,并实现其中如下方法:getBackOffSleepIncrement()//暂不用

2020-10-09 20:13:52 239 2

原创 大数据学习笔记-2020-10-06--flume的使用案例两则

flume的使用案例两则实时读取目录文件到HDFS案例需求,使用flume监听整个目录的文件需求分析:在指定目录中添加文件通过flume监控指定目录,其中tmp后缀的文件不上传,其他已标记的文件改为COMPLETED结尾采集到的数据上传到HDFS实现:创建配置文件f-dir-hdfs.conf,并写入如下内容:[kgg@hadoop201 ~]$ cd /opt/module/flume/[kgg@hadoop201 flume]$ vi job/f-dir-hdfs

2020-10-06 22:06:52 111

原创 大数据学习笔记-2020-10-05--kafka中一些常用的指令

kafka常用指令开启集群:bin/kafka-server-start.sh config/server.properties &关闭集群:bin/kafka-server-stop.sh stop查看当前服务器中所有的topic:bin/kafka-topics.sh --zookeeper hadoop101:2181 --list创建topic:bin/kafka-topics.sh --zookeeper hadoop101:2181 \--create

2020-10-05 20:36:35 90

原创 大数据学习笔记-2020-10-05--kafka简介

Kafka消息队列的概念消息队列点对点模式即一对一模式,消费者主动拉取数据,消息收到后清除消息点对点模型通常是一个基于拉取或轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接受处理,即使有多个消息监听者也是如此发布/订阅模式即一对多模式,数据生产后推送给所有订阅者发布订阅模型是一个基于推送的消息传送模型,发布订阅模型可以有多种不同的订阅者,临时订阅者只在主动监听主题时才接收消息,而持久订阅者则监听主题的所

2020-10-05 19:29:42 103

原创 大数据学习笔记-2020-10-05--flume简介

flumeflume的定义flume是cloudera提供的一个高可用、高可靠的,分布式的海量日志采集、聚合和传输的系统flume基于流式架构,灵活简单。flume最主要的作用就是实时读取服务器本地磁盘中的数据,将数据写入到hdfs中。flume的组成架构agent是一个jvm进程,它以时间的形式将数据从源头送至目的,是flume数据传输的基本单元。agent由三个部分组成:sourcechannelsinksource是负责接受数据到flume agent的组件

2020-10-05 11:59:58 132

原创 大数据学习笔记-2020-10-03--hive中的文件存储格式

hive中的文件存储格式hive支持的主要储存的格式有:TEXTFILESEQUENCEFILEORCPARQUET行式存储与列式存储行存储的特点:查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。列存储的特点:因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计

2020-10-03 15:26:47 133

原创 大数据学习笔记-2020-10-03--hive中的函数与udf自定义函数

hive中的函数系统自带的函数:查看系统自带的函数:hive> show functions;显示自带函数的用法:hive> desc function upper;详细显示自带函数的用法:hive> desc function extended upper;用户自定义的函数UDF(user-defined function):当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数根据用户自定义函数类别分为以

2020-10-03 14:50:13 153

原创 大数据学习笔记-2020-10-02--hive基础(数据类型与hql语句基础

hive的数据类型hive中的基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble

2020-10-02 23:43:16 260

原创 大数据学习笔记番外--好用的shell脚本两则(基于ssh的集群分发脚本与集群执行指令脚本

基于rsync命令的xsync脚本#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`echo pdir=$pdir#4 获取当前用户名称user=`whoami`

2020-10-01 03:22:41 102

原创 大数据学习笔记-2020-09-24--hive入门

hive入门hive简介​ hive是由Facebook开源用于解决海量结构化日志的数据统计工具。​ hive是基于hadoop的一个数据长裤工具,可以将结构化的数据文件映射位一张表,并提供类似sql的查询语句。​ 其本质是将HQL转换位MR程序。hive的数据储存在HDFShive分析数据底层的实现是MR其执行程序运行在yarn上hive的优缺点优点:操作接口类似sql语法,易上手避免编写mr,减少开发人员的学习成本可以处理海量数据支持自定义函数,用户可以根据自己的需求来

2020-09-24 20:01:40 167

原创 大数据学习心得-2020-09-19--MR案例三枚(倒排索引、top10、寻找共同好友)

案例一:倒排索引案例(多job串联)需求有大量的文本,需要建立搜索索引数据输入文件1E:\work\test\input\II\a.txtRemilya Scarlet jiejieFrandre Scarlet meimeiScarlet文件2E:\work\test\input\II\b.txtRemilya Scarletweiyan weiyan weiyan weiyanweiyan weiyan weiyan weiyanweiyan weiyan

2020-09-19 14:07:44 247

原创 大数据学习心得-2020-09-17--简述yarn上常见的三种资源调度器

yarn中的三种资源调度器Hadoop中的作业调度器主要又三种FIFO调度器Capacity调度器Fair调度器其中Hadoop2.7.2默认的时capacity调度器先进先出调度器(FIFO)特点,所有作业被统一提交到一个队列中,hadoop按提交顺序依次运行这些作业缺点,FIFO调度器的调度策略过于简单,不仅不能满足多样化需求,也不能充分利用硬件资源容器调度器(Capacity Scheduler)capacity调度器由yahoo开发的多用户调度器以

2020-09-17 17:38:34 214

原创 大数据学习笔记-2020-09-17--hadoop中的压缩

hadoop数据压缩简介数据压缩​ 在hadoop中,压缩技术可以有效的减少底层存储系统HDFS的读写的字节数。还能提高网络带宽和磁盘空间的效率。在Hadoop下,尤其是当数据规模很大和网络数据传输要花费大量的时间,shuffle和merge过程也面临着巨大的io压力。压缩的策略和原则:压缩是一种提高hadoop运行效率的优化策略。通过对mapper、reducer运行过程的数据进行压缩,减少io、提高mr程序的运行速度。采用压缩虽然降低了io,但却增加了cpu的负担压缩的基本原则:运

2020-09-17 17:11:38 130

原创 大数据学习笔记-2020-09-16--MR中自定义outputFormat于MR中的join操作

MR中自定义outputFormatoutputFormat接口的实现类OoutputFormat时MR输出时的基类,所有mr输出都实现了OF接口,一下时几种常见的OF实现类:TextOutputFormat 文本输出:为默认输出格式,将每条记录写为文本行,键和值可以是任意类型,因为会调用它们的toSTring方法sequenceFileOutputFormat :将SequenceFileOutputFormat的输出作为后续 MapReduce任务的输入,这便是一种好的输出格式,因

2020-09-16 19:51:43 153

原创 大数据学习笔记-2020-09-15--mr程序中自定义分区器、排序和辅助排序

MR运行程序中自定义分区器简述分区简单来说,就是根据数据的特点将其分成多个输出结果,每个分区由一个reduceTask处理,也即是reduceTask的数量等于分区数。mr默认使用的是hash分区器,通过对key的hash值排序进行分区。如果不设置reduceTask的任务数的话,不管设置成怎样的分区器最后都只有一个输出的文件,因为只有一个reduceTask在处理数据。自定义分区器此处用我之前学习时写的处理手机山下行流量的mr程序为案例需求此处由于我的数据是自己随机生成的,所

2020-09-15 21:08:20 454 2

原创 大数据学习心得-2020-09-13--通过idea的断点调试简单通读mr业务实现流程

前言通读源码这东西,是每一个优秀的程序员都应该做到的基本功,学了大数据后更着网上的视频读了几次源码了,但还是毫无头绪,每次都思维混乱、痛苦不堪,全程感觉在哲学三问。近日有老师领着又读了一遍,感觉稍微好点了,遂自己又简单的读了一遍,总算是有点头绪了,因此写下此篇,供自己和其他学习大数据的新手们在读源码时做个参考。环境说明我所用的版本时hadoop2.7.2,jdk1.8,都安装在windows上且配好了环境。使用的java编译器时idea,阅读源码主要借助于idea的断点调试功能基于我自己写的w

2020-09-13 23:26:15 237

原创 大数据学习笔记-2020-09-12--MR常用组件与MR数据处理流程

MR中常用组件的介绍Mapper:map阶段核心的处理逻辑Reducer:reduce阶段核心的处理逻辑InputFormat:输入格式MR程序必须指定一个输入目录和一个输出目录InputFormat代表输入目录中的文件格式– 如果是普通文件,可以用FileInputFormat– 如果是SequenceFile(hadoop提供的一种序列化文件格式),可以使用SequenceFileInputFormat– 如果是数据库中的数据,需要使用DBInputFormat– 也可以自定义In

2020-09-12 19:43:50 701

原创 大数据学习笔记-2020-09-12--Hadoop-MapReduce入门与基础的wordCountJava代码实现

MapReduceMR简介​ MR是一个分布式运算程序的编程框架,是用户开发基于Hadoop的数据分析应用的核心框架。​ MR的核心功能是将用户编写的业务代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。MR优点MR易于编程:写过的都懂良好的扩展性:当计算资源得不到满足时,可以简单的通过增加机器拓展其计算能力高容错性:当集群中一台机器挂了,它会将上面的计算任务转移到另一个节点上运行,不至于导致任务失败,且这个过程由Hadoop内部完成,不需要人工参

2020-09-12 17:47:24 176

原创 大数据学习心得2020-09-10--Zookeeper基本学习与模拟服务器动态上下线监听API实现

ZooKeeperZookeeper简介概述zookeeper十一i个开源的分布式的,为分布式应用提供协调服务地Aoache项目。zookeeper是基于观察者模式地风不是服务管理框架。​ 它负责存储和管理大家都关心的数据,然后接受观察者的注册。一旦这些数据发生变化,zk就负责通知所有已经在zk上注册的那些观察者做出的响应的反应。zookeeper = 文件系统 + 通知系统特点zk是由一个leader和多个follower组成的集群集群中只要有半数以上的节点存活,zk集群就能正

2020-09-10 23:42:12 649

原创 大数据学习笔记2020-09-10--HDFS-HA的工作机制与实现

HDFS-HA 的实现原理HA概述HA(High Available),即高可用实现高可用最关建的就是取消单点故障HA严格来讲分成各个组件的HA:​ HDFS的HA​ YARN的HAHDFS-HA的工作机制​ 通过双NN(namenode)消除单点故障HDFS-HA工作要点元数据管理方式的变化​ 内存中各自保持一份元数据​ Edits日志只有avtive状态的nn可以写​ 两个nn都可以读Edits日志​ 共享的Edits放在一个共享存储中管理(qjourna

2020-09-10 20:56:53 316

原创 大数据学习笔记-hdfs的文件读写流程与nn和2nn的工作机制

HDFS文件读写流程HDFS写流程正常情况下的写流程异常情况下的写流程所谓异常情况,一般指在上述5、6步骤中出现网络问题或节点宕机导致传输失败的问题。 1、在写的流程中,client先将packet存储到dataQueue队列中 2、发送时,dataQueue队列中的每个packet依次发送到通道 packet发送到通道后,会从dataQueue中移动到ackQueue中 4、当该packet受到了所有DN节点回复的ack确认信息后,从ackQueue中删除该packet 5

2020-09-09 20:49:02 301

原创 hadoop学习心得20-09-08

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、HDFS1、HDFS简介2、HDFS的优缺点优点:缺点3、HDFS的组成架构二、HDFS shell 操作1.基本语法2.HDFS客户端操作(java代码编写1、客户端环境准备2、maven导入依赖3、java代码编写总结前言hadoop学习心得今天主要学了关于Hadoop中hdfs的一些操作提示:以下皆为本人学习心得,不能保证正确,欢迎大神指点交流。一、HDFS1、HDFS简介HDFS(Hadoo

2020-09-08 21:16:35 1757

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除