ItStar_-CSDN博客

转载 MapReduce底层原理剖析

Map端运行的流程inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给map（用户自己实现的）进行处理，数据被map处理结束之后...

2019-08-22 10:49:42 454

转载 Flink状态类型及应用

在Flink架构体系中，有状态计算是Flink非常重要的特性之一，有状态计算是指在程序计算过程中，在Flink程序内部存储计算的中间结果，并提供给后续Function或者...

2019-08-21 10:43:41 2726

转载 Flink工作调度

Flink中的执行资源通过任务槽定义。每个TaskManager都有一个或多个任务槽，每个槽都可以运行一个并行任务管道。流水线由多个连续的任务，如在第n一MapFunc...

2019-08-20 13:32:15 551

转载 oracle与mysql的差别

oracle与mysql的差别1. Oracle是大型数据库而mysql是中小型数据库2. Oracle支持大并发，大访问量，是OLTP最好的工具。3. 安装所用的空间差...

2019-08-20 13:32:15 129

转载 kafka常用命令总结

kafka服务启动$KAFKA_HOME/bin/kafka-server-start.sh-daemonconfig/server.properties创建Top...

2019-08-19 15:04:02 144

转载走进Hbase

One.什么是Hbase?阿帕奇HBASE™是Hadoop数据库，一个分布式的，可伸缩的，大数据存储。主要是对大数据进行随机、实时读写访问,这个项目的目标是在商品硬件集群...

2019-08-18 18:54:20 72

转载 Sqoop是什么，与Flume有何不同？

Sqoop原本是Hadoop的一个第三方模块，后期为了用户能够快速部署，完成更快速地迭代开发，Sqoop独立出来，成为Apache项目。Sqoop作为一款开源工具，主要应...

2019-08-18 18:54:20 644

转载 Flume为什么是流式处理，如何使用

我们都知道Hadoop、Spark用于处理非常大的数据集，通常假设数据是已经在HDFS中，或者可以批量复制。然而，有很多系统不符合这个假设，他们产生了我们想要的数据流，使...

2019-08-17 16:12:54 152

转载大数据与人工智能的关系

什么是大数据？随着时代的发展，我们在日常生活中产生的数据也越来越多，比如日常上网浏览，全国一天就能达到几十亿的数据量，而且这仅仅只是网页浏览产生的数据量，各行各业所有的数...

2019-08-17 16:12:54 563

转载 Spark Ml lib之协同过滤算法

协同过滤通常用于推荐系统。这类技术旨在填写用户项关联矩阵的缺失条目。spark.ml目前支持基于模型的协同过滤，其中用户和产品由可用于预测缺失条目的一小组潜...

2019-08-16 15:57:30 188

转载 HDFS负载均衡器

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，例如：当集群内新增、删除节点，或者某个节点机器内硬盘存储达到饱和值。当数据不平衡时，...

2019-08-16 15:57:30 159

转载大数据分析岗位的就业前景

大数据技术是产业互联网的核心技术之一，而产业互联网将是未来互联网行业发展的重要方向，也是广大传统行业实现结构性升级，完成“互联网+”的重要选择。随着大数据技术的逐渐落地，...

2019-08-16 15:57:30 2122 1

转载 scala快速入门之基础篇-循环语法

Scala概念Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Jav...

2019-08-16 15:57:30 345

转载关于数据清洗的常见方式

1.探索性分析探索性分析部分，对于整个数据来讲是获得对数据一个初步的认识以及对先验知识的一个探索分析过程，在我做相关数据挖掘的过程中，主要是利用python相关的科学...

2019-08-15 16:29:45 4725

转载 kafka体系架构

基本概念 kafka是一种高吞吐量的消息队列（生产者消费者模式）由Scala和Java编写 Kafka是一种高吞吐量的分布式发布订阅...

2019-08-15 16:29:45 294

转载 Docker练习之jupyter安装及python环境搭建

需求：下载含有python环境的 image，并且安装jupyter notebook，最终可以在页面上进行python开发（基于centos）1.因为镜像库默认是国外的...

2019-08-15 16:29:45 1063

转载每个程序员都应该懂大数据和机器学习

时至今日，能用计算机软件提高效率的地方，几乎已经被全部发掘过了，计算机软件成为人们日常生活的必备品，人们已经习惯了计算机软件的存在。在这种情况下，如果想让软件再成百上千倍...

2019-08-15 16:29:45 238

转载程序员那些开发利器

1.Everything这是一款快速搜索工具，基于名称快速定位文件和文件夹。轻量安装文件干净简洁的用户界面快速文件索引快速搜索最小资源使用。2.IDM是 Wind...

2019-08-14 14:20:05 245

转载 Flume拦截器

相信大家对Flume都已经很了解，Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。其架构多为Source、Channel...

2019-08-13 14:01:27 354

转载 HDFS集群扩容节点

在企业中，经常需要根据业务的发展对HDFS集群进行节点扩容。比如我们要添加一个新DataNode节点到集群中：新节点主机名:bigdata114I...

2019-08-13 14:01:27 533 1

转载 HDFS体系架构

HDFS:Hadoop Distributed File System 简称为:HDFS (hadoop 分布式文件系统)一台服务...

2019-08-13 14:01:27 146

转载初识大数据与云计算

One.大数据是什么？1.大数据其实就是就是解决了海量数据的存储以及海量数据有效存储的问题.2.大数据的概念其实早在以前就有人提出过理论，只不过当时还不能解决海量数据的问...

2019-08-11 00:07:53 1213

转载学习大数据的必备技能

关注过我们ItStar的朋友们，想必已经了解了什么是大数据、什么是云计算以及大数据的应用场景和它强大的存储计算数据的能力的一些科普知识。不了解大数据的朋友多...

2019-08-11 00:07:53 635

转载数仓应用工具Hive：从底层设计窥见其优化策略

Hive介绍：官网上对Hive的介绍可以简单理解为：它是一款构建在Hadoop之上的数据仓库软件，将已存储的数据结构化（将数据库中的各个文件关联起来，形成一定的结构关系）...

2019-08-09 23:17:15 169

转载物联网目前的应用场景有哪些

现在说“万物互联”也许为时尚早，但是很多细分的垂直领域场景已经实现了物联网。1. 智能家居智能家居可能是和我们最接近，也是目前最普及的物联网。目前市面上销售的各种大家电，...

2019-08-08 23:09:54 8940 1

转载 ITstar“BUG”诊所

错误诊断挂号：Linux系统科。诊断：xshell连接不上VMware中的Linux系统。分析病因一：首先检查Linux的ip是否配置正确。经判断ip配置正确。分析病因二...

2019-08-08 23:09:54 116

转载走进Spark

A.Spark是什么？快如闪电的搜索引擎是一个通用的分析引擎，用来进行大规模的数据处理实际上Spark同样也是解决了大数据怎么计算的问题 Sp...

2019-08-08 23:09:54 97

转载转型大数据常见的几个问题

没有大数据的开发经验，怎么去面试大数据的职位呢？我认为越是好的公司，越是优秀的面试官，越是不在意你的经验，他们会更看重你的基础能力和解决问题的思路。所以你如果对自己的基础...

2019-08-07 23:14:42 223

转载 Flink SVM算法参数

在机器学习中，支持向量机（SVM）是在分类与回归分析中分析数据的监督式学习模型。SVM模型是将实例表示为空间中的点，通过映射使得单独类别的实例被尽可能宽的明显间隔分开，然...

2019-08-07 23:14:42 529

原创技术启发对生活的哲思

我们学任何技术，如果能从生活的角度多去思考，把技术和生活联系在一起，会发现技术是非常有趣的。技术本就是来源于生活的嘛，而且通过这种发散性思考，使我们可以成为一个更加睿智，...

2019-08-06 22:21:52 134

转载 Flink有状态计算概述

在Flink架构体系中，有状态计算可以说是Flink非常重要的特性之一。有状态计算是指在程序计算过程中，在Flink程序内部存储计算产生的中间结果，并提供给后续Funct...

2019-08-06 22:21:52 2470

转载什么是数据仓库

什么是数据仓库:介绍数仓之前，我们先看看数仓能做什么数据仓库对数据的工程治理、统一管理：基于大数据的互联网行业主要应用：数据仓库的概念最早源自于，企业希望有一种...

2019-08-05 22:24:48 310

转载灭霸脚本

浏览GitHub发现一个非常有趣的脚本，是什么呢？看下图就可以猜出来~~话不多说，来看脚本：#第一步创建一个脚本文件 touchThanos.sh #第二步编写脚本...

2019-08-04 17:21:17 3385

转载 Spark常见的脚本及参数详解

设置此文件后，可以使用以下shell脚本启动或停止群集，这些脚本基于Hadoop的部署脚本，并在SPARK_HOME/sbin以下位置提供：sbin/start-mast...

2019-08-03 18:47:24 673

转载带领大家浅谈如何学习大数据

最近几年，大数据火了起来,吸引着越来越多的人加入到学习大数据的队伍之中,其中0基础的小白也有不少，甚至有的连编程语言不太了解,所以说有些同学就对自己失去了信心，认为自己学...

2019-08-03 18:47:24 293

转载什么是ClickHouse？

ClickHouse是一个面向列的数据库管理系统（DBMS），用于在线分析处理查询（OLAP）。在“正常”面向行的DBMS中，数据按以下顺序存储：换句话说，与行相关的所有...

2019-08-02 21:51:53 1440

转载走进SparkStreaming

Spark Streaming类似于Apache Storm，但是sparkStreaming用于微批实时处理。官方文档介绍，Spark Streaming有高吞吐量和容...

2019-08-02 21:51:53 211

转载实践出真知

软件开发是一个实践性活动，我们学习再多的理论，最终都需要落到实践中，否则就是纸上谈兵。大数据技术也不例外，没有实践，就不可能深入，想要学好大数据，一定要实践。而大数据实践...

2019-08-01 16:35:50 896

转载 Linux系统使用yum安装命令

搭建Linux系统后查看网卡出现以上错误。原因是安装Linux的最小化安装方式，系统没有自带。如何安装呢？查看到是属于“net-tools”包里面的。第二步：安装使用“y...

2019-08-01 16:35:50 431

转载多方面了解zookeeper

1.首先我们要先了解Zookeeper是什么？官方定义:是开源的,分布式的,为分布式应用提供协调服务的Apache项目通俗的来讲：zookeeper=小型重要存储文件系统...

2019-08-01 16:35:50 140

空空如也

空空如也