大数据
Casablanca_jhBi
韬光养晦
展开
-
大数据_各章概述
一、各章概述(Hadoop部分) (一)、Hadoop的起源与背景知识 1、什么是大数据?两个例子、大数据的核心问题是什么? 举例:(1)商品推荐:问题1:大量的订单如何存储? 问题2:大量的订单如何计算? (2)天气预报:问题1:大量的天气数据如何存储? 问题2:大量的天气数据如何计算?原创 2017-12-19 10:43:42 · 285 阅读 · 0 评论 -
spark总概括
Spark 2.x 管理与开发Demo: 在Spark中,执行WordCount程序sc.textFile("hdfs://bigdata11:9000/input/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect四部分:第一部分:Scala编程语言(看成:Java的升级版) API:htt...原创 2018-03-10 18:07:47 · 153 阅读 · 0 评论 -
大数据_Redis
WindowsThe Redis project does not officially support Windows. However, the Microsoft Open Tech group develops and maintains this Windows port targeting Win64.一、Redis内存数据库 1、Redis前身:MemCached原创 2018-01-20 22:21:07 · 769 阅读 · 0 评论 -
大数据_MemCached
NoSQL数据库:MemCached、Redis ----> 特点:基于内存一、为什么要把数据存入内存? 1、原因:快 2、举例:在B/S架构中,如何去优化(提高)性能? 3、常见的内存数据库 (*)MemCached:看成Redis的前身,严格来说Memcached的不能叫数据库,原因:不支持持久化 (*)Redis:内存数据库,持久化原创 2018-01-20 21:31:40 · 215 阅读 · 0 评论 -
大数据_HDFS联盟
一、搭建HDFS联盟的环境 1、规划: NameNode: bigdata12 bigdata13 DataNode: bigdata14 bigdata15 2、准备环境: (*)清除之前的配置 (*)安装JDK、修改/etc/hosts文件、关闭防火墙、免密码登录 3、在bigdata12原创 2018-01-20 18:10:09 · 370 阅读 · 0 评论 -
Linux常用的命令
常见快捷键 ctrl+c:停止进程 ctrl+l:清屏 ctrl+q:退出 善于用tab键 上下键:查找执行过的命令 ctrl+alt:linux与windows之间切换防火墙: service iptables status (功能描述:查看防火墙状态) chkconfig iptables –list (功能描述:查原创 2018-01-29 02:30:09 · 428 阅读 · 0 评论 -
大数据_开发自己的workCount程序
把对象写到文件当中,这个过程叫做序列化;反过来,你想从文件里面去恢复这个对象,这个过程叫做反序列化。package demo.wc;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apac原创 2017-12-31 20:50:55 · 388 阅读 · 0 评论 -
大数据_MapReduce
六、MapReduce程序开发1、Demo:WordCount单词计数 /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar 执行: hadoop jar hadoop-mapreduce-examples-2.7.3.原创 2017-12-29 12:53:57 · 212 阅读 · 0 评论 -
大数据_zk
主从结构的单点故障的问题 ZK的体系结构12、Hadoop的集群知识点回顾:主从结构的单点故障的问题一、ZooKeeper:相当于是一个”数据库“ 1、ZK的体系结构: 默认客户端端口:2181 2、部署ZK tar -zxvf zookeeper-3.4.10.tar.gz -C ~/training/原创 2018-01-15 10:24:54 · 491 阅读 · 0 评论 -
Scala语言基础
Scala编程语言(看成:Java的升级版) API:http://www.scala-lang.org/files/archive/api/2.11.8/#package 第一章:Scala语言基础 1、简介Scala:是一种多范式的编程语言 (*)面向对象 (*)函数式编程:Scala的最大特点 ...原创 2018-03-10 18:53:31 · 199 阅读 · 0 评论 -
Scala语言的面向对象编程
一、面向对象的基本概念:把数据和操作数据的方法放到一起,作为一个整体(类 class) 面向对象的特征: (1)封装 (2)继承 (3)多态二、定义类: class,没有类的修饰符: public、protected、privateclass Student1 { //定义属性 private var stuName:String = "Tom"...原创 2018-03-10 22:32:29 · 432 阅读 · 0 评论 -
Spark RDD的高级算子
1、mapPartitionsWithIndex: 对RDD中的每个分区进行操作,带有分区号 定义:def mapPartitionsWithIndex[U](f: (Int, Iterator[T])=>Iterator[U], preservesPartitioning: Boolean = false) (implic...原创 2018-03-12 22:54:54 · 662 阅读 · 0 评论 -
Spark的算子:方法、函数
1、什么是RDD? 最核心*)弹性分布式数据集,Resilent distributed DataSet (*)Spark中数据的基本抽象 (*)结合源码,查看RDD的概念 * Internally, each RDD is characterized by five main properties: * ...原创 2018-03-11 22:02:39 · 896 阅读 · 0 评论 -
Spark任务运行机制及原理分析
1、WordCount程序执行的过程2、Spark提交任务的流程原创 2018-03-11 21:21:59 · 373 阅读 · 0 评论 -
执行Spark任务: 客户端
1、Spark Submit工具:提交Spark的任务(jar文件) (*)spark提供的用于提交Spark任务工具 (*)example:/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar (*)SparkPi.scala 例子:...原创 2018-03-11 20:45:45 · 1210 阅读 · 0 评论 -
Spark的体系结构和安装配置
Spark体系结构1、体系结构:Client-Server(主从模式) ----> 单点故障:HA(ZooKeeper) http://spark.apache.org/docs/latest/cluster-overview.html安装和部署准备工作:安装Linux、JDK、主机名、免密码登录 standalone ...原创 2018-03-11 19:12:53 · 548 阅读 · 0 评论 -
什么是Spark
什么是Spark? 1、什么是Spark?生态体系结构 Apache Spark™ is a fast and general engine for large-scale data processing. 生态圈: 1、Spark Core 2、Spark SQL 3、Spark Streamin...原创 2018-03-11 18:11:29 · 650 阅读 · 0 评论 -
Scala语言的高级特性
一、Scala的集合 1、可变集合和不可变集合//可变集合、不可变集合 Mapval math = scala.collection.immutable.Map("Alice"->80,"Bob"->90)val chinese = scala.collection.mutable.Map("Alice"->80,"Bob"->90)//1. 获原创 2018-03-11 12:43:35 · 644 阅读 · 0 评论 -
Scala函数式编程
一、Scala中的函数 (*) 函数是Scala中头等公民//复习:Scala中函数//定义函数def myFunc1(name:String):String = "Hello " + nameprintln(myFunc1("Tom"))def myFunc2():String = "Hello World"//值函数:把函数作为变量的值val v1 = myFu...原创 2018-03-10 23:06:45 · 258 阅读 · 0 评论 -
大数据_storm下
一、开发WordCount程序:实时计算二、Storm任务提交的过程三、Storm内部通信的机制:有Work中的Executor来执行四、外部系统的集成 1、流式计算系统的典型的架构: 数据源(网站) -----> Flume ----> Kafka(topic广播) -----> Storm ----|原创 2018-01-22 22:40:46 · 199 阅读 · 0 评论 -
大数据_HUE
11、配置和使用HUE一、Demo:启动和使用HUE 1、启动:hadoop:start-all.sh hbase: start-hbase.sh hbase-daemon.sh start thrift hive: hive --service metastore原创 2018-01-15 09:38:01 · 20445 阅读 · 1 评论 -
大数据_第一阶段小结
课程小结:一、大数据的背景知识 1、什么是大数据?IBM五个v的特性。 举例:商品推荐、天气预报 2、数据仓库:就是一个数据库 3、OLTP(事务)和OLAP(分析) 4、Google的三篇论文 (1)GFS:HDFS (2)MapReduce:PageRank搜索排名 (3)BigTable:大表---> HB原创 2018-01-13 13:44:54 · 256 阅读 · 0 评论 -
大数据_Shuffle、MapReduce编程案例(数据去重、多表查询、倒排索引、使用单元测试)
一、什么是Shuffle(洗牌) ----> MapReduce核心 1、序列化 2、排序 3、分区 4、合并二、MapReduce编程案例 ------> 掌握方法:如何开发一个程序 1、数据去重: 复习:SQL:distinct去掉重复的数据 作用于后面所有的列 复习(原创 2018-01-11 12:03:35 · 826 阅读 · 0 评论 -
Linux、vi、java
一、Linux的结构二、关闭防火墙 1、查看防火墙的状态:systemctl status firewalld.service 2、关闭防火墙:systemctl stop firewalld.service 使用这条命令,防火墙就关了,但是重启虚拟机后,防火墙就又开了,所以还需要使用下一条命令,将防火墙彻底关掉。 3、禁用防火墙(永久): systemctl dis原创 2017-12-01 21:41:32 · 340 阅读 · 0 评论 -
大数据_Storm
一、大数据实时计算框架:Storm 1、什么是流式计算? 举例:自来水厂处理自来水 2、对比:离线计算和实时计算 离线计算:MapReduce,批量处理(Sqoop-->HDFS--> MR ---> HDFS) 实时计算:Storm和Spark Sparking,数据实时性(Flume ---> Kafka ---> 流原创 2018-01-21 14:16:08 · 248 阅读 · 0 评论 -
Hadoop的全分布模式
一、搭建Hadoop的全分布模式 1、三台机器:bigdata12 bigdata13 bigdata14 2、每台机器准备工作:安装JDK、关闭防火墙、设置主机名 systemctl stop firewalld.service systemctl disable firewalld.service 设置主机名 v原创 2017-12-25 14:35:32 · 4102 阅读 · 0 评论 -
大数据_排序、分区、合并
一、排序:按照key2进行排序 1、数字的排序 2、字符串的排序 3、对象的排序: 实现WritableComparable接口 (1)序列化 (2)可被排序 员工数据 Employee.java ----> 作为key2输出 复习SQL:order by 后面可以跟 列名、表达式、别名、序号(第四列) desc原创 2018-01-11 10:18:39 · 744 阅读 · 0 评论 -
大数据_RPC
package hdfs.proxy.java;public interface MyService { //真正对象实现的接口:业务的逻辑 public void method1(); public void method2();}package hdfs.proxy.java;public class MyServiceImpl implements MyService {原创 2017-12-29 10:01:43 · 270 阅读 · 0 评论 -
大数据_MapReduce和Hadoop的安装与配置
谷歌的向量矩阵 MapReduce计算模型 java的序列化是实现Serializable接口(我如果想把一个java的对象作为inputStream和outputStream流的对象的话,这个java类必须要实现java序列化机制。)一、Google的基本思想 1、GFS 2、MapReduce:计算模型,进行大数据计算 问题的来源:PageR原创 2017-12-19 13:34:22 · 1135 阅读 · 0 评论 -
大数据_NoSQL数据库
NoSQL数据库之:HBase一、NoSQL的基础、常见的NoSQL数据库 1、什么是NoSQL数据库? (*)基于Key-Value来保存数据 关系型数据库:基于关系模型 ---> 二维表 (*)NoSQL不支持事务 2、常见的NoSQL数据库 (1)HBase:基于HDFS、面向列的NoSQL数据原创 2018-01-13 14:24:15 · 722 阅读 · 0 评论 -
大数据_HDFS数据上传与下载
将元信息存入内存中,满了,生成fsimage文件,采用的算法是LRU(最近最少使用算法)原创 2017-12-28 22:07:14 · 485 阅读 · 0 评论 -
大数据_数据采集引擎(Sqoop和Flume)
一、数据采集引擎 1、准备实验环境: 准备Oracle数据库 用户:sh 表:sales 订单表(92万) 2、Sqoop:采集关系型数据库中的数据 用在离线计算的应用中 强调:批量 (1)数据交换引擎: RDBMS ---> Sqoop原创 2018-01-14 21:36:05 · 3669 阅读 · 0 评论 -
大数据_Pig
一、Pig简介和Pig的安装配置 1、最早是由Yahoo开发,后来给了Apache 2、支持语言:PigLatin 类似SQL 3、翻译器 PigLatin ---> MapReduce(Spark) 4、安装和配置 (1)tar -zxvf pig-0.17.0.tar.gz -C ~/training/ (2)设置环境变量 v原创 2018-01-14 19:40:02 · 1355 阅读 · 0 评论 -
大数据_Hive的安装配置(远程模式)
一、Hive的安装和配置:远程模式(需要MySQL数据库) (*)在嵌入模式下,在哪个目录下执行的数据库初始化,就应该在哪个目录下执行: hive (*)远程模式:MySQL (1)配置MySQL的数据库:http://www.mysqlfront.de/ (2)配置hive-site.xml: JDBC的参数 "1.原创 2018-01-14 15:48:42 · 831 阅读 · 0 评论 -
大数据_Hive(数据分析引擎)
数据分析的引擎:Hive、Pig ----> 属于Hadoop体系结构 Impala Spark SQL -----> 类似Hive一、什么是Hive? 1、Hive是一个翻译器,把SQL语句翻译成一个MapReduce程序 2、常见的数据分析引擎:Hive、Pig、Impala、Spark SQL 3原创 2018-01-14 14:52:43 · 1301 阅读 · 0 评论 -
大数据_HBase(Region分裂、接上一篇HBase)
六、数据保存的过程(一定注意:Region分裂) 数据保存的过程七、HBase的过滤器(Java程序) 1、准备实验的数据 2、列值过滤器 列名前缀过滤器 多个列名前缀过滤器 行键过滤器 3、组合过滤器package demo.filter;import java.util.ArrayList;原创 2018-01-14 13:56:41 · 1064 阅读 · 0 评论 -
大数据_HBase
一、NoSQL的基础、常见的NoSQL数据库二、HBase的表结构和体系结构 1、HBase的表结构:Google的三篇论文的时候:BigTable 大表 2、HBase在ZK中保存数据 (*)配置信息、HBase集群结构信息 (*)表的元信息 (*)实现HBase的HA:high avaibility 高可用性三、搭建HBa原创 2018-01-13 15:28:53 · 267 阅读 · 0 评论 -
大数据_HDFS
第五章:HDFS一、操作HDFS 1、Web Console:端口50070 2、命令行:有两种类型 (1)普通操作命令: hdfs dfs ****** 命令 -mkdir:在HDFS上创建目录 hdfs dfs -mkdir /aaa h原创 2017-12-28 14:19:24 · 451 阅读 · 0 评论 -
大数据算法2
你见过什么什么热搜么,请问怎么实现 几个热搜榜的实现都差不多。输出都是要显示一段时间内、一定条件下的前几名搜索词。输入应该是一段时间内、一定条件下的所有搜索词 主要工作就是从所有搜索词中输出前几名的搜索词 面试时要说的工作: 第一步:计数-依次读入每个搜索词,统计出现次数; 第二步:排序-对于(搜索词,计数) 二元组,根据计数来排序 第三步:返回排...原创 2018-04-24 18:49:46 · 296 阅读 · 0 评论