- 博客(22)
- 资源 (1)
- 收藏
- 关注
原创 流式处理入门--无界数据的处理模式
流式处理前言本文为阅读《Streaming System》的读书笔记,推荐对流处理感兴趣的同学看一下这本书。名词释义流式系统:一类用于处理无界数据的数据处理引擎;有界数据:数据规模是有限的;无界数据:数据规模是无限的;Event Time:事件的发生时间,每个独立事件在产生它的设备上发生的时间;Processing TIme:事件的处理时间,Flink中表示数据在操作算子计算过程中...
2020-04-25 14:14:47 787
原创 Spark小练习——求各科老师最受欢迎的TopN
Spark小练习——求各科老师最受欢迎的TopN 【注】本文参考自小牛学堂学习视频Spark小练习——求各科老师最受欢迎的TopN数据格式:http://bigdata.edu360.cn/laozhang1.数据切分val func=(line:String)=>{ val index=line.lastIndexOf("/") val teacher=l...
2018-10-18 21:35:29 864
原创 Spark整合Hive过程及遇到的问题
Spark整合Hive过程及遇到的问题一、前置步骤安装MySQL,创建用户(当然也可以直接用root用户)并授权CREATE USER 'bigdata'@'%' IDENTIFIED BY '123568'; GRANT ALL PRIVILEGES ON hivedb.* TO 'bigdata'@'%' IDENTIFIED BY '123568' WITH GRANT OP...
2018-10-18 20:23:26 1481 1
原创 RDD的转化与行为
一、基本的RDD操作1.RDD的转化操作表1-1:对数据为{1,2,3,3}的RDD进行基本的转化操作 函数 目的 实例 结果 map() 将函数应用于RD'D中的每个元素 rdd.map(x=>x+1) {2,3,4,4}...
2018-10-09 21:17:08 421
原创 RDD基础
RDD基础一、RDD基本特征1.RDD是一个基本的抽象,操作RDD就像操作本地集合一样,降低了编程的复杂度。 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark。弹性的 可恢复的 分布式的 数据...
2018-10-09 21:00:13 254
转载 HBase热点问题简单总结
Hbase中的 “热点”问题1.热点现象 检索habse的记录首先要通过row key来定位数据行,当大量的client访问hbase集群的一个或少数几个节点, 造成少数region server的读/写请求过多、负载过大,而其他region server负载却很小,就造成了“热点”现象.大量访问会使热点region所在的单个主机负载过大,引起性能下降甚至region不可...
2018-09-14 16:14:53 1469
原创 HBase协处理器----初步认识
HBase协处理器—Coprocessor 一、简介 Hbase无法轻易构建“二级索引”,难以执行行求和、计数、排序等操作。 虽然HBase在数据存储层中集成了MapReduce,能够有效用于数据表的分布式计算。但很多情况下,做一些 简单的相加或者聚合计算时,如果直接将计算过程放置在server端,能够减少通讯开销。 从而获得更好的性能提升。如此,便有了协处...
2018-09-14 16:05:58 245
原创 Hive安装配置及错误解决办法
Hive安装配置及错误解决办法一、准备mysql,hive安装包,mysql驱动(我的安装包是apache-hive-1.2.1-bin.tar.gz,驱动是mysql-connector-java-5.1.28.jar)二、安装第一步:安装mysql数据库及客户端apt-get installmysql-serverapt-get installmysqls...
2018-07-23 20:32:17 1306
原创 复习:用Eclipse上传文件到hdfs集群的常见问题
用Eclipse上传文件到hdfs集群的常见问题一、准备工具:windows平台的hadoop(我的是hadoop-2.6.4包,这个包我不知道怎么上传上来,2333....),eclipse;第一步:首先把压缩包解压;第二步:配置环境变量添加一个HADOOP_HOME=E:\hadoop 2.6.4(填你自己的路径);把%HADOOP_HOME%\bin添加到Path中...
2018-07-23 13:06:31 1090
原创 hadoop集群常见问题
Hadoop集群常见问题1、运行mr程序出错connecting to resoucemanager retrying .... retrying ..... 原因是没有启动yarn或者启动失败2、初始化工作目录结构hdfs namenode -format 只是初始化了namenode的工作目录而d...
2018-07-17 08:55:23 286
原创 hdfs集群启动的常见问题
hdfs集群启动的常见问题1、用浏览器访问namenode的50070端口,不正常,需要诊断问题出在哪里:a、在服务器的终端命令行使用jps查看相关进程 观察节点是否存活b、如果已经知道了启动失败的服务进程,进入到相关进程的日志目录下,查看日志,分析异常的原因 1)配置文件出错,saxparser exception; ——找到错误提示中所指出的配置文件检查修改即可 2)unk...
2018-06-18 21:13:53 2015
原创 配置ssh免密登录
配置SSH免密登录 例如有A、B两台机器,这两台机器上都有一个用户名同为tom的用户。现在的需求是在A机器上通过无密码(不输入密码,即免密)方式登录B机器。 第一步:分别在A和B机器上使用命令“ssh-keygen”生成公钥和私钥。 执行该命令之后会在briup用户的家目录下生成“.ssh/”目录和在该“.ssh/”目录下生成公钥“id_rsa.pub”文件和私钥“id_rsa...
2018-06-18 17:02:49 265
原创 搭建zookeeper集群
搭建zookeeper集群 一、准备工作1.安装好jdk2.下载zookeeper压缩包3.新建一个文件夹zookeeper,在该文件夹中再创建一个data文件夹(我是在/data目录下创建的)sudo mkdir -p /data/zookeeper/datasudo mkdir -p /data/zookeeper/dataLog然后放开权限(chmod 777...
2018-06-08 17:17:26 289
原创 Hadoop笔记--hdfs中namenode工作机制
HDFS中NameNode工作机制1.NameNode的主要功能(1)负责客户端请求的响应;(2)负责元数据的管理。2.元数据管理namenode对数据管理采用了三种存储形式:(1)内存元数据;(2)磁盘元数据镜像文件;(3)数据操作日志文件(可以通过日志运算出元数据)。2.1元数据的存储机制(1)内存中有一份完整的元数据(meta data);(2)磁盘中有一个元数据镜像文件(fsimage),...
2018-05-02 15:46:57 2547
转载 谷歌MapReduce论文中文版
AbstractMapReduce是一种编程模型和一种用来处理和产生大数据集的相关实现。用户定义map函数来处理key/value键值对来产生一系列的中间的key/value键值对。还要定义一个reduce函数用来合并有着相同中间key值的中间value。许多现实世界中的任务都可以用这种模型来表达,就像下文所展示的那样。用这个风格编写的程序可以自动并行地在集群上工作。运行时系统会自动处理例如切割输...
2018-04-10 12:08:22 4645
原创 在IDEA中配置ftp
在IDEA中配置ftp1.点击Tools下的Deployment,再点击Configuration选项2.填写远程服务器的IP以及用户名和密码3.填写本地文件路径(如项目所在地址)和服务器对应的部署路径(即上传到服务器的该路径下)4.点击Add anothor mapping,选择第一个选项Passive mode5.最后测试,点击Test FTP Connection,出现下面这个弹框,就说明你...
2018-04-10 09:50:17 8417
原创 XML约束---DTD,Schema
一、DTD约束1.DTD概念 DTD(Document Type Definition),文档类型定义,用于约束XML文档。 规定XML文档中元素名称,子元素的名称及顺序,元素的属性等。2.DTD重点要求 通常情况下我们是通过框架提供的DTD约束文档编写对应的XML文档。 常见框架使用DTD约束有:struts2、hibernate等。3.DTD文档声明 (1)内部DTD,在XML文档内部嵌入DT...
2018-02-09 19:21:43 220
转载 Java多线程--线程的同步与通信
线程的同步与通信一、线程的同步上一篇手记《多线程的创建与使用》中有个练习题:模拟火车站售票窗口,开启三个窗口售票,总票数为100当时我没有考虑线程安全问题,今天我再把它拿出来,用线程的同步机制来实现线程的安全。在之前那段程序中存在线程安全问题,打印车票时可能出现重复车票以及错票。那么线程安全问题存在的原因?由于一个线程在操作共享数据过程中,未执行完毕的情况下,另外的
2018-01-17 09:22:32 276 3
转载 Java多线程---线程的创建和使用
Java多线程---线程的创建和使用主要内容程序、进程、线程的概念Java中多线程的创建和使用1、继承Thread类与Thread类的主要方法2、实现Runable接口3、线程的调度与设置优先级一、程序、进程、线程的概念1、程序(program):可以理解为一段静态的代码,静态对象。是为了完成特定任务、用某种语言编写的一组指令的集合。2、进程(proce
2018-01-17 09:18:18 276
转载 Java反射
Java反射一、类的加载1、当程序要使用某个类时,如果该类还未被加载到内存中,则系统会通过加载,连接,初始化三步来实现对这个类进行初始化。(1)加载 就是指将class文件读入内存,并为之创建一个Class对象(class文件的对象)。任何类被使用时系统都会建立一个Class对象(2)连接验证 是否有正确的内部结构,并和其他类协调一致准备 负责为类的静态成员分配内存
2018-01-17 08:53:13 289
原创 Java基础---Java集合框架
Java集合一、 集合1、 Collection接口(1)List接口:存储有序的,可以重复的元素1)ArrayList(List的主要实现类)2)LinkedList(针对于频繁的插入和删除操作)3)Vector(线程安全的但效率低于ArrayList)(2)Set接口:存储无序的、不可重复的元素1)HashSet(主要实现类)2)LinkedHash
2018-01-04 12:58:08 227
原创 大数据基础----Python入门
Python入门一、基础语法1、Python中数据类型整数,浮点数,字符串,布尔值,空值(None)2、print语句注意:1.当我们在Python交互式环境下编写代码时,>>>是Python解释器的提示符,不是代码的一部分。2.当我们在文本编辑器中编写代码时,千万不要自己添加 >>>。print语句也可以跟上多个字符串,用逗号“,”隔开,就可以连成一串输出。p
2018-01-04 12:52:43 782
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人