阿里云鬼谷子-CSDN博客

原创冒泡排序算法

1.比较数组中，两个相邻的数字，如果第一个比第二个达，则交换他们的位置2.每一次比较，都会产生一个最大或最小的数字3.下一轮则少一次排序4.依次循环，直到结束。

2023-06-03 22:54:08 101

原创三元运算符

a和b比较大小，如果a大赋值给max ，否则赋值给b。三元运算符：max=a>b?

2023-06-03 22:46:17 105

原创 Markdown 语法的使用

加空格代表一级标题，##加空格代表二级标题，一次类推，最多支持六级标题。

2023-06-02 20:19:14 551

原创阿里云中间件消息队列kafka

消息队列Kafka版针对开源的Apache Kafka提供全托管服务，解决开源产品的痛点。有了消息队列Kafka版，您只需专注于业务开发，无需部署运维。相较于开源Apache Kafka，消息队列Kafka版成本更低、弹性更强、可靠性更高。消息队列Kafka版具有丰富的应用生态，主要包括以下方面：...

2022-06-07 11:48:41 202

原创自建数据库MySQL和云数据库Rds MySQL的优缺点

阿里云关系型数据库RDS（Relational Database Service）是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和SSD盘高性能存储，RDS支持MySQL、SQL Server、PostgreSQL和MariaDB TX引擎，并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案，彻底解决数据库运维的烦恼。...

2022-06-07 10:57:23 1489

什么是云企业网更新时间：2021-03-26 09:27我的收藏本页目录组成部分转发路由器云企业网CEN（Cloud Enterprise Network）是承载在阿里云提供的高性能、低延迟的私有全球网络上的一张高可用网络。云企业网可帮助您在不同地域专有网络VPC（Virtual Private Cloud）间，VPC与本地数据中心间搭建私网通信通道，通过自动路由分发及学习，提高网络的快速收敛和跨网络通信的质量和安全性，实现全网资源的互通，帮助您打造一张具有企业级规模和通信能力的互

2021-06-08 14:46:39 146

原创 logstash 和 flume

在某个Logstash的场景下，我产生了为什么不能用Flume代替Logstash的疑问，因此查阅了不少材料在这里总结，大部分都是前人的工作经验下，加了一些我自己的思考在里面，希望对大家有帮助。本文适合有一定大数据基础的读者朋友们阅读，但如果你没有技术基础，照样可以继续看（这就好比你看《葵花宝典》第一页：欲练此功，必先自宫，然后翻到第二页：若不自宫，也可练功，没错就是这种感觉→_→）。大数据的数据...

2018-04-09 21:28:00 225

转载 kafka 学习

转载 2016年12月02日 10:27:00标签：Kafka35172一、基本概念介绍Kafka是一个分布式的、可分区的、可复制的消息系统。它提供了普通消息系统的功能，但具有自己独特的设计。这个独特的设计是什么样的呢？首先让我们看几个基本的消息系统术语：Kafka将消息以topic为单位进行归纳。将向Kafka topic发布消息的程序成为producers.将预订topics并消费消息的程序成...

2018-04-09 20:29:31 165

原创 storm

伴随着信息科技日新月异的发展，信息呈现出爆发式的膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。举个搜索场景中的例子，当一个卖家发布了一条宝贝信息时，他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦，相反，如果这个宝贝要等到第二天或者更久才可以被搜出来，估计这个大哥就要骂娘了。再举一个推荐的例子，如果用户昨天在淘宝上买了一双袜子，今天想买一副泳镜去游泳...

2018-03-22 20:25:27 206

原创 sparkstreaming

SparkStreaming教程本文章主要讲述SparkStreaming概念原理、基本概念、以及调优等一些知识点。1 概述1.1 SparkStreaming是什么Spark Streaming 是个批处理的流式（实时）计算框架。其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。　支持从多种数据源获取数据，包括Kafk、Flume...

2018-03-19 19:58:33 367

原创 sparkstreaming+hbase+kafka

这个需求是是按照实际工作中的项目改写的一个例子。业务需求： 1. 实时统计某市银行流水交易总额 2. 实时统计某市银行某地区的流水交易总额 3. 每隔10s统一次每个地区近一年内的交易总额系统需求：...

2018-03-19 19:49:55 567

原创 spark 算子

　Spark的算子的分类　　　从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。　　　　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。 2）Actio...

2018-03-01 09:51:07 302

原创虚拟机克隆完成网卡等配置命令

虚拟机克隆后需要配置的文件虚拟机网卡等配置文件命令：1.vi /etc/hosts 配置主机名2.vi /etc/sysconfig/network 主机映射3.vi /etc/sysconfig/network-scripts/ifcfg-eth0 网卡配置4.vi /etc/udev/rules.d/70-persistent-set.rules 删除多余的克隆过来的设置5.ifcon...

2018-02-27 17:45:37 271

原创 linux文件配置命令详解

配置文件/etc/hosts(本地主机ip地址映射,可以有多个别名）。/etc/services(端口号与标准服务之间的对应关系）。/etc/sysconfig/network（设置主机名，网关，域名）。HOSTANME=zjw.com(主机名）（需要重启计算机才有效）GATEWAY=192.168.1.1（网关）/etc/rc.d/init.d/network restart（脚本服务启动)se...

2018-02-27 17:26:27 249

原创大数据公司运维架构

2018-02-01 20:06:24 450

转载 hive的技术原理

本文旨在讲解Hive的运行原理，帮助使用者更好的了解在使用的过程中它做了些什么工作，深入的理解他的工作机制，提高开发人员理论层面的知识。后面会逐渐推出Hive使用、Hbase原理与使用等大数据专题类文章，敬请关注。什么是Hive？ Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查

2018-01-31 19:51:35 573

转载吴恩达

1.75亿美元！吴恩达第三锤：宣布成立AI基金AIFund原创 2018年01月31日 12:24:01标签：吴恩达 /人工智能676作者 | 谷磊吴恩达的第三个创业项目正式公布了——AIFund ，顾名思义，是一只专注AI领域的投资基金。自离职百度后，吴恩达宣布要做的三个AI 项目已经一一亮相。现在我们简单回顾一下这三个

2018-01-31 15:24:47 1280

原创大数据是什么用漫画告诉你

漫画：什么是大数据？2018-01-31 Java知音点击上方“Java知音”，选择“置顶公众号”技术文章第一时间送达！本文创作者：程序员小灰微信号：chengxuyuanxiaohui

2018-01-31 15:11:44 997

转载 hadoop yarn hdfs 原理和联系

hadoop大数据工程师/hadoop工程师目的：高效的存储、处理这些海量、多种类、高速流动的数据 hadoop来源google 03~06 年的三篇论文 hadoop利用分而治之的朴素思想为大数据处理提供了一整套新的解决方案，分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、数据仓库工具Hive等 hadoop主要组件：HDFS、M

2018-01-31 10:32:54 3115

转载 hadoop原理总结

一、Hadoop技术原理Hdfs主要模块：NameNode、DataNodeYarn主要模块：ResourceManager、NodeManager常用命令：1）用hadoop fs 操作hdfs网盘,使用Uri的格式访问（URI格式：secheme://authority/path ,默认是hdfs://namenode:namenode port /parent

2018-01-31 10:27:39 344

转载 hadoop核心运行原理

我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：· 按照ASCII码存储，每行一条记录· 每一行字符从0开始计数，第15个到第18个字符为年· 第25个到第29个字符为温度，其中第25位是符号+/-

2018-01-31 10:12:52 826

转载 hadoop常用命令汇总

命令汇总网络配置：hostname 查看主机名vi /etc/sysconfig/network 设置主机名ifconfig 查看ip情况 vi /etc/sysconfig/network-scripts/ifcfg-eth0 设置网络 DEVICE=“e

2018-01-31 09:59:53 169

转载 hadoop集群搭建

1. Linux虚机换机环境安装1.1 linux环境安装1.建议选择虚拟机:VirtualBox 2.Linux版本：Ubuntu 3.安装时选择动态扩展磁盘，最大磁盘容量50G(最大磁盘容量太小，hadoop使用过程中容易出现意想不到的的问题） 4.网络选择桥接网卡（不要选择NAT，不然路由器不会为虚拟机分配独立的IP地址） 5.安装增强功能开启双向开启共享剪切

2018-01-31 09:56:11 210

转载 hadoop命令

一：介绍用于Hadoop集群用户命令。二：archive创建一个Hadoop档案.More information can be found at Hadoop Archives Guide.三：classpath打印Hadoop jar和所需的libs的class路径。用法: mapred classpath四：distcp递归复制

2018-01-31 09:53:51 286

转载大数据系列之从大企业架构设计看大数据技术栈

大数据技术这几年来被炒得火热，一方面也真的是数据量越来越大，传统的海量数据处理技术已经不能够满足当前的业务场景；另一反面，也是由于蕴藏在大量数据中的价值越来越引起人们的重视。大数据技术的兴起，与人工智能技术的兴起是相辅相成的。大数据处理技术的及时、高效，更方便人工智能的网格计算，越来越多的中小型创业公司也加入了大数据圈。可能一个比较有趣的问题就是，中小型公司哪里能够获取到数据？更何谈大数据

2018-01-30 21:39:55 302

转载 datanode的常见错误解决办法

1，错误一：java.io.IOException: Incompatible clusterIDs时常出现在namenode重新格式化之后9 `7 k# I: L2 |9 U* @6 d2014-04-29 14:32:53,877 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization fail

2018-01-30 19:57:13 16611

转载 hadoop格式化出错

8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)16/11/26 20:20:39 INFO ipc.Client: Retrying connect to server: Weekend10

2018-01-29 16:07:01 2727

原创常用网站

数据分析网站：http://www.umeng.com/

2018-01-26 10:07:47 134

转载 HBase

本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据、HBase数据模型、HBase物理存储、HBase系统架构，HBase调优、HBase Shell访问等。不过在此之前，你可以先了解 Hadoop生态系统，若想运行HBase，则需要先搭建好Hadoop集群环境，可以参考此文搭建5个节点的hadoop集群环境（CDH5）。好了，让我们来学习HBase

2018-01-25 19:59:27 588

转载 hadoop命令

* 文件操作 * 查看目录文件 * $ hadoop dfs -ls /user/cl * * 创建文件目录 * $ hadoop dfs -mkdir /user/cl/temp * * 删除文件 * $ hadoop dfs -rm /user/cl/temp/a.txt * * 删除目录与目录下所有文件 * $ hadoop dfs -rmr /u

2018-01-23 20:24:21 232

原创关于DataNode经常异常退出的问题

1、问题背景操作系统：CentOS7 64位 Hadoop版本：Hadoop2.7.3 JDK：1.8.0_652、问题描述使用start-all.sh脚本或者先后执行start-dfs.sh、start-yarn.sh脚本启动Hadoop后，通过jps命令检测DataNode节点进程发现有DataNode进程，数秒后DataNode进程莫名其妙“消失”了，只有Jp

2018-01-23 19:43:32 1313

转载 Yarn产生的历史背景

Yarn产生的历史背景Hadoop是apache基金会的一个项目，目的是开发一个开源软件，用于可靠的可扩展的，分布式的计算。 Hadoop不是一个软件，而是一个软件库，hadoop作为一个软件库，提供了一个框架，可以以分布式的方式，在集群的多台主机之间，使用简单的编程模型来处理大量的数据集。Hadoop被设计成可以从单主机扩展到数千台主机，并且支持本地计算和存储。 Hadoop本

2018-01-23 17:20:07 683

转载 hadoop的起源

Hadoop是什么？Hadoop的起源Hadoop发展史Hadoop的四大特性（优点）Hadoop的版本如何选择Hadoop版本Hadoop是什么？ Hadoop：适合大数据的分布式存储和计算平台 Hadoop不是指具体一个框架或者组件，它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海

2018-01-23 17:02:22 7377

原创 hive安装配置

你可以下载一个已打包好的hive稳定版，也可以下载源码自己build一个版本。安装需要java 1.6，java 1.7或更高版本。Hadoop 2.x或更高, 1.x. Hive 0.13 版本也支持 0.20.x, 0.23.xLinux,mac,windows操作系统。以下内容适用于linux系统。安装打包好的hive需要先

2018-01-23 12:01:15 114

转载关于hadoop网站

apache官方网站：http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html flume官方网站：http://flume.apache.org/ hive官方网站：https://hive.apache.org/

2018-01-23 11:28:32 730

转载 Oozie的编译

Oozie的编译：系统需求：Unix box (tested on Mac OS X and Linux)Java JDK 1.7+Maven 3.0.1+Hadoop 0.20.2+Pig 0.7+ JDK commands (java, javac) must be in the command path.The Mave

2018-01-23 10:14:36 571

qq_39132578的博客

原创冒泡排序算法

原创三元运算符

原创 Markdown 语法的使用

原创阿里云中间件消息队列kafka

原创自建数据库MySQL和云数据库Rds MySQL的优缺点

原创什么是云服务器ECS

原创云计算大数据时代云企业网

原创 logstash 和 flume

转载 kafka 学习

原创 storm

原创 sparkstreaming

原创 sparkstreaming+hbase+kafka

原创 spark 算子

原创虚拟机克隆完成网卡等配置命令

原创 linux文件配置命令详解

原创大数据公司运维架构

转载 hive的技术原理

转载吴恩达

原创大数据是什么用漫画告诉你

转载 hadoop yarn hdfs 原理和联系

转载 hadoop原理总结

转载 hadoop核心运行原理

转载 hadoop常用命令汇总

转载 hadoop集群搭建

转载 hadoop命令

转载大数据系列之从大企业架构设计看大数据技术栈

转载 datanode的常见错误解决办法

转载 hadoop格式化出错

原创常用网站

转载 HBase

转载 hadoop命令

原创关于DataNode经常异常退出的问题

转载 Yarn产生的历史背景

转载 hadoop的起源

原创 hive安装配置

转载关于hadoop网站

转载 Oozie的编译

空空如也

空空如也