大数据
大数据 hadoop,spark
此处一淌水
这个作者很懒,什么都没留下…
展开
-
Spark 流(微批)处理(4)
Spark Streamingdef main(args: Array[String]): Unit = { // 1. 创建 Context val conf = new SparkConf() .setAppName("updateStateBykey") .setMaster("local[6]") val ssc = new StreamingContext(conf, Seconds(1)) ssc.sparkContext.setLogL原创 2020-10-29 08:55:23 · 450 阅读 · 0 评论 -
Spark SQL(3)
SparkSQL 适用场景1.1 命令是APIcase class People(name: String, age: Int)val spark: SparkSession = new sql.SparkSession.Builder() .appName("hello") .master("local[6]") .getOrCreate()import spark.implicits._val peopleRDD: RDD[People] = spark.sp原创 2020-10-28 14:44:16 · 180 阅读 · 0 评论 -
Spark RDD(2)
Spark core Insight目标深入理解 RDD 的内在逻辑能够使用 RDD 的算子理解 RDD 算子的 Shuffle 和缓存理解 RDD 整体的使用流程理解 RDD 的调度原理理解 Spark 中常见的分布式变量共享方式1. 深入 RDD目标深入理解 RDD 的内在逻辑, 以及 RDD 的内部属性(RDD 由什么组成)1.1. 案例需求给定一个网站的访问记录, 俗称 Access log计算其中出现的独立 IP, 以及其访问的次数val config =原创 2020-10-22 17:27:08 · 370 阅读 · 0 评论 -
Spark介绍-Spark Core(1)
Spark Core全阶段目标理解 Spark 的特点和作用能够完成 Spark 的集群搭建和安装通过入门案例理解 Spark 的编程模型 RDD了解 RDD 的常见使用1. Spark 概述目标Spark 是什么Spark 的特点Spark 生态圈的组成1.1. Spark是什么目标了解 Spark 的历史和产生原因, 从而浅显的理解 Spark 的作用Spark的历史2009 年由加州大学伯克利分校 AMPLab 开创2010 年通过BSD许可协议开源发布2原创 2020-10-22 17:23:27 · 2544 阅读 · 0 评论 -
Neo4j CRUD 常用命令
Neo4j CRUD 常用命令增# 创建一个标签create (a:Animal);# 创建一个节点、标签,并赋予属性create (p:pig{name:'Peppa',age:3,like:'juice'}# 创建一个节点多个标签,并赋予属性create (:Animal:pig{name:'George ',age:1,like:'cake'})# 创建多个节点create (d:pig{name:"Pig Dad",age:12}),(m:pig{name:"Pig Mom",a原创 2020-10-16 17:03:50 · 422 阅读 · 0 评论 -
Hadoop学习-MapReduce(2)
Hadoop-Mapreduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce运行在yarn集群ResourceManagerNod原创 2020-09-29 11:24:18 · 246 阅读 · 0 评论 -
Hadoop学习-HDFS(1)
Hadoop 核心-HDFS1. HDFS概述###1.1 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。 HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通原创 2020-09-29 11:15:15 · 176 阅读 · 1 评论 -
Hadoop、HDFS、MapReduce、Habse、Spark、Yarn是干什么的?
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDF.原创 2020-09-21 10:20:07 · 693 阅读 · 0 评论 -
Kakfa安装使用,springboot封装
资源下载apache 资源库,包含kafka和zookeeper,也可去官网下载安装zookeeper安装kafka安装使用启动安装配置完成,先启动zookeeper然后后台启动kakfa。./bin/kafka-server-start.sh config/server.properties &partions和replication-factor参数的理解简单shell命令# 创建 副本为1 分区为1 名为 test 的主题bin/kafka-topics.sh --原创 2020-09-01 14:41:09 · 141 阅读 · 0 评论 -
Hbase 常用 Shell 命令
Hbase 常用 Shell 命令一、基本命令 1.1 获取帮助 1.2 查看服务器状态 1.3 查看版本信息二、关于表的操作 &nb原创 2020-08-19 15:24:10 · 269 阅读 · 0 评论 -
Springboot实现ElasticSearch全文模糊搜索(3)
Pom文件<dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter</artifactId> </dependency> <dependency>原创 2020-08-11 15:36:51 · 1138 阅读 · 0 评论 -
Elasticsearch,Kibana 常用命令(2)
1. 查看节点信息GET _cat/nodes?v2.索引2.1创建test_kibana 索引//number_of_shards 主分片数//number_of_replicas 副分片数PUT /test_kibana{ "settings": { "number_of_shards" : 1 "number_of_replicas" : 0 }}等同于curl -XPUT "http://192.168.0原创 2020-08-10 11:50:06 · 1128 阅读 · 0 评论 -
Elasticsearch安装及常见问题解决,Kibana 安装(1)
下载Elasticsearch官网地址:https://www.elastic.co/本文下载的版本为6.8.6解压安装Elasticsearch进入es目录启动es注意:es启动之后啊,会绑定两个端口,9200和9300.bin/elasticsearch注意: 这样启动只能通过 127.0.0.1:9200 访问修改为内网能访问建议修改 es 的配置文件 (一般建议这种)vi config/elasticsearch.ymlnetwork.host: 你的本机ip(19原创 2020-08-10 09:51:53 · 439 阅读 · 0 评论