自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 冒泡排序算法

1.比较数组中,两个相邻的数字,如果第一个比第二个达,则交换他们的位置2.每一次比较,都会产生一个最大或最小的数字3.下一轮则少一次排序4.依次循环,直到结束。

2023-06-03 22:54:08 69

原创 三元运算符

a和b比较大小,如果a大 赋值给max ,否则赋值给b。三元运算符:max=a>b?

2023-06-03 22:46:17 82

原创 Markdown 语法的使用

加空格 代表一级标题 ,##加空格代表二级标题,一次类推,最多支持六级标题。

2023-06-02 20:19:14 529

原创 阿里云中间件消息队列kafka

消息队列Kafka版针对开源的Apache Kafka提供全托管服务,解决开源产品的痛点。有了消息队列Kafka版,您只需专注于业务开发,无需部署运维。相较于开源Apache Kafka,消息队列Kafka版成本更低、弹性更强、可靠性更高。消息队列Kafka版具有丰富的应用生态,主要包括以下方面:...

2022-06-07 11:48:41 171

原创 自建数据库MySQL和云数据库Rds MySQL的优缺点

阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和SSD盘高性能存储,RDS支持MySQL、SQL Server、PostgreSQL和MariaDB TX引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。...

2022-06-07 10:57:23 1399

原创 什么是云服务器ECS

阿里云服务器

2022-02-21 13:48:39 1761

原创 云计算大数据时代云企业网

什么是云企业网更新时间:2021-03-26 09:27我的收藏本页目录组成部分 转发路由器云企业网CEN(Cloud Enterprise Network)是承载在阿里云提供的高性能、低延迟的私有全球网络上的一张高可用网络。云企业网可帮助您在不同地域专有网络VPC(Virtual Private Cloud)间,VPC与本地数据中心间搭建私网通信通道,通过自动路由分发及学习,提高网络的快速收敛和跨网络通信的质量和安全性,实现全网资源的互通,帮助您打造一张具有企业级规模和通信能力的互

2021-06-08 14:46:39 117

原创 logstash 和 flume

在某个Logstash的场景下,我产生了为什么不能用Flume代替Logstash的疑问,因此查阅了不少材料在这里总结,大部分都是前人的工作经验下,加了一些我自己的思考在里面,希望对大家有帮助。本文适合有一定大数据基础的读者朋友们阅读,但如果你没有技术基础,照样可以继续看(这就好比你看《葵花宝典》第一页:欲练此功,必先自宫,然后翻到第二页:若不自宫,也可练功,没错就是这种感觉→_→)。大数据的数据...

2018-04-09 21:28:00 199

转载 kafka 学习

转载 2016年12月02日 10:27:00标签:Kafka35172一、基本概念介绍Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能,但具有自己独特的设计。这个独特的设计是什么样的呢?首先让我们看几个基本的消息系统术语:Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers.将预订topics并消费消息的程序成...

2018-04-09 20:29:31 151

原创 storm

伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳镜去游泳...

2018-03-22 20:25:27 185

原创 sparkstreaming

SparkStreaming教程本文章主要讲述SparkStreaming概念原理、基本概念、以及调优等一些知识点。1      概述1.1  SparkStreaming是什么Spark Streaming 是个批处理的流式(实时)计算框架。其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。   支持从多种数据源获取数据,包括Kafk、Flume...

2018-03-19 19:58:33 343

原创 sparkstreaming+hbase+kafka

  这个需求是是按照实际工作中的项目改写的一个例子。               业务需求: 1. 实时统计某市银行流水交易总额                                   2. 实时统计某市银行某地区的流水交易总额                                   3. 每隔10s统一次每个地区近一年内的交易总额                系统需求:...

2018-03-19 19:49:55 538

原创 spark 算子

 Spark的算子的分类     从大方向来说,Spark 算子大致可以分为以下两类:     1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。     Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。     2)Actio...

2018-03-01 09:51:07 284

原创 虚拟机克隆完成 网卡等配置 命令

虚拟机克隆后 需要配置的文件虚拟机网卡等配置文件 命令:1.vi /etc/hosts  配置主机名2.vi /etc/sysconfig/network 主机映射3.vi /etc/sysconfig/network-scripts/ifcfg-eth0 网卡配置4.vi /etc/udev/rules.d/70-persistent-set.rules  删除多余的克隆过来的设置5.ifcon...

2018-02-27 17:45:37 247

原创 linux文件配置命令详解

配置文件/etc/hosts(本地主机ip地址映射,可以有多个别名)。/etc/services(端口号与标准服务之间的对应关系)。/etc/sysconfig/network(设置主机名,网关,域名)。HOSTANME=zjw.com(主机名)(需要重启计算机才有效)GATEWAY=192.168.1.1(网关)/etc/rc.d/init.d/network restart(脚本服务启动)se...

2018-02-27 17:26:27 231

原创 大数据公司运维架构

2018-02-01 20:06:24 435

转载 hive的技术原理

本文旨在讲解Hive的运行原理,帮助使用者更好的了解在使用的过程中它做了些什么工作,深入的理解他的工作机制,提高开发人员理论层面的知识。后面会逐渐推出Hive使用、Hbase原理与使用等大数据专题类文章,敬请关注。什么是Hive?       Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查

2018-01-31 19:51:35 552

转载 吴恩达

1.75亿美元!吴恩达第三锤:宣布成立AI基金AIFund原创 2018年01月31日 12:24:01标签:吴恩达 /人工智能676作者 | 谷磊吴恩达的第三个创业项目正式公布了——AIFund ,顾名思义,是一只专注AI领域的投资基金。自离职百度后,吴恩达宣布要做的三个AI 项目已经一一亮相。现在我们简单回顾一下这三个

2018-01-31 15:24:47 1251

原创 大数据是什么 用漫画告诉你

漫画:什么是大数据?2018-01-31 Java知音点击上方“Java知音”,选择“置顶公众号”技术文章第一时间送达!本文创作者:程序员小灰微信号:chengxuyuanxiaohui

2018-01-31 15:11:44 962

转载 hadoop yarn hdfs 原理和联系

hadoop大数据工程师/hadoop工程师 目的:高效的存储、处理这些海量、多种类、高速流动的数据 hadoop来源google 03~06 年 的三篇论文 hadoop利用分而治之的朴素思想为大数据处理提供了一整套新的解决方案,分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、数据仓库工具Hive等 hadoop主要组件:HDFS、M

2018-01-31 10:32:54 3070

转载 hadoop原理总结

一、Hadoop技术原理Hdfs主要模块:NameNode、DataNodeYarn主要模块:ResourceManager、NodeManager常用命令:1)用hadoop fs 操作hdfs网盘,使用Uri的格式访问(URI格式:secheme://authority/path ,默认是hdfs://namenode:namenode port /parent

2018-01-31 10:27:39 332

转载 hadoop核心运行原理

我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:·        按照ASCII码存储,每行一条记录·        每一行字符从0开始计数,第15个到第18个字符为年·        第25个到第29个字符为温度,其中第25位是符号+/-

2018-01-31 10:12:52 817

转载 hadoop常用命令汇总

命令汇总网络配置:hostname          查看主机名vi   /etc/sysconfig/network    设置主机名ifconfig                       查看ip情况 vi  /etc/sysconfig/network-scripts/ifcfg-eth0    设置网络    DEVICE=“e

2018-01-31 09:59:53 154

转载 hadoop集群搭建

1. Linux虚机换机环境安装1.1 linux环境安装1.建议选择虚拟机:VirtualBox 2.Linux版本:Ubuntu 3.安装时选择动态扩展磁盘,最大磁盘容量50G(最大磁盘容量太小,hadoop使用过程中容易出现意想不到的的问题) 4.网络选择桥接网卡(不要选择NAT,不然路由器不会为虚拟机分配独立的IP地址) 5.安装增强功能开启双向开启共享剪切

2018-01-31 09:56:11 196

转载 hadoop命令

一:介绍用于Hadoop集群用户命令。二:archive创建一个Hadoop档案.More information can be found at Hadoop Archives Guide.三:classpath打印Hadoop jar和所需的libs的class路径。用法: mapred classpath四:distcp递归复制

2018-01-31 09:53:51 270

转载 大数据系列之从大企业架构设计看大数据技术栈

大数据技术这几年来被炒得火热,一方面也真的是数据量越来越大,传统的海量数据处理技术已经不能够满足当前的业务场景;另一反面,也是由于蕴藏在大量数据中的价值越来越引起人们的重视。大数据技术的兴起,与人工智能技术的兴起是相辅相成的。大数据处理技术的及时、高效,更方便人工智能的网格计算,越来越多的中小型创业公司也加入了大数据圈。可能一个比较有趣的问题就是,中小型公司哪里能够获取到数据?更何谈大数据

2018-01-30 21:39:55 286

转载 datanode的常见错误解决办法

1,错误一:java.io.IOException: Incompatible clusterIDs时常出现在namenode重新格式化之后9 `7 k# I: L2 |9 U* @6 d2014-04-29 14:32:53,877 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization fail

2018-01-30 19:57:13 16448

转载 hadoop格式化出错

8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)16/11/26 20:20:39 INFO ipc.Client: Retrying connect to server: Weekend10

2018-01-29 16:07:01 2643

原创 常用网站

数据分析网站 :http://www.umeng.com/

2018-01-26 10:07:47 127

转载 HBase

本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。不过在此之前,你可以先了解 Hadoop生态系统 ,若想运行HBase,则需要先搭建好Hadoop集群环境,可以参考此文搭建5个节点的hadoop集群环境(CDH5) 。好了,让我们来学习HBase

2018-01-25 19:59:27 579

转载 hadoop命令

* 文件操作 * 查看目录文件 * $ hadoop dfs -ls /user/cl * * 创建文件目录 * $ hadoop dfs -mkdir /user/cl/temp * * 删除文件 * $ hadoop dfs -rm /user/cl/temp/a.txt * * 删除目录与目录下所有文件 * $ hadoop dfs -rmr /u

2018-01-23 20:24:21 225

原创 关于DataNode经常异常退出的问题

1、问题背景操作系统:CentOS7 64位 Hadoop版本:Hadoop2.7.3 JDK:1.8.0_652、问题描述使用start-all.sh脚本或者先后执行start-dfs.sh、start-yarn.sh脚本启动Hadoop后,通过jps命令检测DataNode节点进程发现有DataNode进程,数秒后DataNode进程莫名其妙“消失”了,只有Jp

2018-01-23 19:43:32 1257

转载 Yarn产生的历史背景

Yarn产生的历史背景Hadoop是apache基金会的一个项目, 目的是开发一个开源软件,用于可靠的可扩展的,分布式的计算。 Hadoop不是一个软件,而是一个软件库,hadoop作为一个软件库,提供了一个框架,可以以分布式的方式,在集群的多台主机之间,使用简单的编程模型来处理大量的数据集。Hadoop被设计成可以从单主机扩展到数千台主机,并且支持本地计算和存储。 Hadoop本

2018-01-23 17:20:07 676

转载 hadoop的起源

Hadoop是什么?Hadoop的起源Hadoop发展史Hadoop的四大特性(优点)Hadoop的版本如何选择Hadoop版本Hadoop是什么? Hadoop: 适合大数据的分布式存储和计算平台 Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海

2018-01-23 17:02:22 7304

原创 hive安装配置

你可以下载一个已打包好的hive稳定版,也可以下载源码自己build一个版本。安装需要java 1.6,java 1.7或更高版本。Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.xLinux,mac,windows操作系统。以下内容适用于linux系统。安装打包好的hive需要先

2018-01-23 12:01:15 107

转载 关于hadoop网站

apache官方网站:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html flume官方网站:http://flume.apache.org/ hive官方网站:https://hive.apache.org/

2018-01-23 11:28:32 724

转载 Oozie的编译

Oozie的编译:系统需求:Unix box (tested on Mac OS X and Linux)Java JDK 1.7+Maven 3.0.1+Hadoop 0.20.2+Pig 0.7+ JDK commands (java, javac) must be in the command path.The Mave

2018-01-23 10:14:36 554

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除