![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
chsmy2018
学无止境,任何技能都是慢慢积累出来的。
展开
-
Hadoop学习(一)环境安装和集群创建
vmware直接百度下载安装 秘钥也能百度到CentOS 7下载: 进入官网 https://www.centos.org/download/ 这里有三种 第一个是标准版 第二个是全部版 第三个是最小版 每个版本的大小都不一样,这里选择标准版下载。点第一个标准版进入镜像http://isoredirect.centos.org/centos/7/isos/x86_64/...原创 2018-05-12 19:34:22 · 411 阅读 · 0 评论 -
Hadoop(十二)Presto 搭建
Presto是一个开源的分布式SQL查询引擎,用于针对各种大小(从千兆字节到千兆字节)的数据源运行交互式分析查询。官方部署文档 https://prestodb.io/docs/current/installation/deployment.html https://prestodb.io/docs/current/installation/cli.html下载 presto-s...原创 2018-07-06 10:37:38 · 1057 阅读 · 0 评论 -
scala 笔记
scala声明变量val 不可变的 var 可变的val str = “hello world” val str2 : String = “hello world”默认导入 inport java,lang._ _代表所有的基本语法函数式运算scala> 5+3res1: Int = 8scala> (5).+(3)re...原创 2018-07-27 15:09:22 · 284 阅读 · 0 评论 -
Spark 概述
MapReduce和spark的对比 MapReduce Spark 数据存储结构:磁盘HDFS文件系统的split 使用内存构建弹性分布式数据集RDD对数据进行运算和cache 编程范式:Map + Reduce DAG: Transformation + Action 计算中间结果落到磁盘,IO及序列化、反序列化代价大 计算中间结果在内...原创 2018-07-27 17:28:08 · 251 阅读 · 0 评论 -
RDD编程练习
RDDRDD创建1、使用sc.textFile(“文件的路径”)从文件系统中加载,sc是SparkContext 2、通过并行集合创建val array = Array(1,2,3,4,5)val rdd = sc.parallelize(array)//sc是SparkContextRDD操作 转换得到的RDD是惰性操作,也就是说,整个转换( transformation)...原创 2018-07-31 10:48:36 · 1161 阅读 · 0 评论 -
Spark SQL与DataSet
Spark SQL的架构图 Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用此额外信息来执行额外的优化Spark SQL执行计划生成和优化都由Catalyst完成DataSet是分布式数据集合。Dataset是Spark ...原创 2018-08-01 16:59:16 · 2109 阅读 · 0 评论 -
SparkStreaming
很多重要的应用要处理大量在线流式数据, 并返结果,比如社交网络趋势追踪,网站指标统计,广告系统,可以使用Spark Streaming来处理流计算的处理流程一般包含三个阶段:数据实时采集、数据实时计算、实时查询服务Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字。经处理后的数据可存储至文件系统、数据库,或显示在仪表盘里Sp...原创 2018-08-08 11:24:53 · 434 阅读 · 0 评论 -
京东金融数据分析案例(一)
数据说明: 给定的数据为业务情景数据,所有数据均已进⾏了采样和脱敏处理,字段取值与分布均与真实业务数据不同。提供了时间为 2016-08-03 到 2016-11-30 期间,用户在移动端的行为数据、购物记录和历史借贷信息,及 11 月的总借款金额。 数据集下载地址为:链接: https://pan.baidu.com/s/1hk8hARHxkQcMS8SgABmcHQ 密码: fc7z 文件...原创 2018-09-10 16:38:22 · 8230 阅读 · 1 评论 -
京东金融数据分析案例(二)
接着上一篇 京东金融数据分析案例(一)来任务 5利用 spark streaming 实时分析每个页面点击次数和不同年龄段消费总金额 步骤:编写 Kafka produer 程序读取hdfs上的文件每隔一段时间产生数据,然后使用spark streaming读取kafka中的数据进行分析,分析结果写入到redis中。(1)将 t_click 数据依次写入 kafka 中的 t_c...原创 2018-09-14 15:34:43 · 2128 阅读 · 0 评论 -
Hadoop(十一)flume把数据写入kafka
使用flume把数据写入kafka,需要改变flume配置文件中的sinks属性进入flume安装文件的conf下创建一个.properties文件 这里创建 c.properties,并对其进行配置ak.sources = mysourceak.channels = mychannelak.sinks = mysinkak.sources.mysource.type = sp...原创 2018-06-29 15:24:56 · 776 阅读 · 0 评论 -
Hadoop(七)storm集群配置
Storm使用Zookeeper来协调群集,在安装storm之前首先确保ZooKeeper集群已经搭建好了。 下载storm 下载地址 http://storm.apache.org/downloads.html 下载完成后上传到linux服务器解压 配置环境变量(可选)export STORM_HOME=/home/chs/software/apache-storm-1.2.1exp...原创 2018-06-01 17:11:45 · 1073 阅读 · 0 评论 -
Hadoop学习(二) 第一个小练习
eclipse下载地址:http://www.eclipse.org/downloads/packages/release/Luna/SR2如果出现如下报错:Java RunTime Environment (JRE) or Java Development Kit (JDK) must be available in order to run Eclipse. No java...原创 2018-05-14 15:22:47 · 349 阅读 · 0 评论 -
Hadoop学习(三)Hive安装
CentOS7安装mysql提示 :No package mysql-server available.第一步下载mysql源安装包: wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm第二步安装mysql源: rpm -ivh mysql-community-release-el7-5.noarch.rp...原创 2018-05-21 13:54:20 · 413 阅读 · 0 评论 -
Hadoop(五)ZooKeeper配置
ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。这里使用zookeeper-3.4.5.tar.gz包,上传到linux虚拟机中解压tar -zxvf zookeeper-3.4.5.tar.gzcd zookeeper-3.4.5进入到conf目录中cd confcp zoo_sample.cfg zoo.cfg...原创 2018-05-28 09:47:27 · 508 阅读 · 0 评论 -
Hadoop(九)kafka配置
Kafka是一个分布式流媒体平台,Kafka作为一个集群运行在一台或多台可以跨越多个数据中心的服务器上。 Kafka集群在称为主题的类别中存储记录流。每个记录由一个键,一个值和一个时间戳组成。下载地址 https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka_2.11-1.1.0.tgz下载完后上传到linux服务器总解压...原创 2018-06-11 11:16:30 · 1483 阅读 · 0 评论 -
Hadoop(六)HBase安装
下载地址:http://archive.apache.org/dist/hbase/ 这里使用的是hbase-1.2.4-bin.tar.gz版本 这里上传到了linux虚拟机/home/chs/software/目录下并解压第一步进入到解压目录中找到conf文件夹进去找到hbase-env.sh文件打开编辑 cd /home/chs/hbase-1.2.4-bin/conf vim ...原创 2018-05-29 09:40:29 · 277 阅读 · 0 评论 -
Hadoop(四)Sqoop安装
Sqoop 主要用于在Hadoop(Hive)与传统的数据库(如mysql)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。数据库的操作使用可视化工具会更方便,这里使用Navicat。 Navicat 下载与安装 https://www.jianshu.com/p/5f693...原创 2018-05-24 17:20:11 · 301 阅读 · 0 评论 -
Hadoop(十)spark环境搭建
本篇使用 Spark 2.3.0Apache Spark是一个快速且通用的集群计算系统。它提供Java,Scala,Python和R中的高级API以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括 Spark SQL , MLlib, GraphX,Spark Streaming.。Spark运行在Java 8+,Python 2.7 + / 3.4 +和R 3.1+上。...原创 2018-06-14 14:52:15 · 1823 阅读 · 0 评论 -
Hadoop(八)flume配置
Flume 分为 Flume NG 和Flume OG,Flume NG是Flume OG的进化版,更简单,更小,更易于部署,Flume NG不一定会向后兼容,所以如果是刚入门的话,最好使用Flume NG。下载地址 http://flume.apache.org/download.html...原创 2018-06-08 15:26:12 · 1145 阅读 · 0 评论 -
CDH6安装
官方文档 https://www.cloudera.com/documentation/enterprise/6/6.0/topics/installation.html安装之前JDK兼容性在不同的Cloudera Manager和CDH版本中也有所不同。某些版本的CDH 5与JDK 7和JDK 8兼容。在这种情况下,请确保所有服务都部署在同一主要版本上。例如,在JDK 8上运行Sqoop时,...原创 2018-12-02 20:45:36 · 7468 阅读 · 2 评论