大数据
文章平均质量分 89
老马识途2.0
始于颜值,陷于才华,终于人品,合于性格...
展开
-
倒排索引
与倒排索引对应的是正向索引(forward index)。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现次数和出现位置。 得到正向索引的结构如下: “文档1”的ID >单词1:出现次数,出现...原创 2019-06-12 18:18:19 · 6546 阅读 · 2 评论 -
hbase 单机安装部署
这个困扰了很长时间,之前使用cdh版本的,各种报错各种出问题,最终换成了不是cdh版本的。下载地址如下:https://pan.baidu.com/s/14pQ6HbTB-s63cfAbpG50LA解压这是我的解压目录:xiaoye@ubuntu3:~/Downloads/hbase$ pwd/home/xiaoye/Downloads/hbase好了后,修改conf目录下的hbase-site...原创 2018-07-10 12:55:32 · 847 阅读 · 0 评论 -
HBase的shell命令行界面按退格键(Backspace)无法删除问题
在HBase的shell命令行界面输入错误项按"退格键"删除,却怎么也删除不了:解决办法:第一步,修改SecureCRT的设置参数:第二步,按"Ctrl+退格键(Backspace)"进行删除即可。...转载 2018-07-08 17:03:37 · 1498 阅读 · 0 评论 -
怎么复制一台虚拟机到另外一台电脑上
现在要想把一台电脑上虚拟机的ubuntu系统复制到另外一个台电脑上的虚拟机上我的做法是直接复制ubuntu系统,右键一个ubuntu系统,设置,找到工作目录这个目录就这个ubuntu系统的全部内容,那么我们直接把这个目录拷到另外一台的电脑上。然后再另外一台电脑的虚拟机上:打开虚拟机:选择:打开后几乎不用改什么配置就能直接用,如果不能上网,需要修改一下网关,这里就不多说怎么改了,百度吧如果需要修改静...原创 2018-06-10 15:54:48 · 67124 阅读 · 2 评论 -
scala , spark-shell 命令行无法撤销,删除 ,退格 ,回退
今天装完spark后,打开spark的命令行后,发现输错字符了,但是无法退格或者删除,这是比较苦恼的问题解决办法:选择选项--》会话选项进来页面选择仿真--》Linux转自:https://blog.csdn.net/hsl_1990_08_15/article/details/52093156...转载 2018-06-10 14:48:31 · 2933 阅读 · 0 评论 -
安装scala和配置环境变量
下载地址:https://www.scala-lang.org/download/也可以百度下载,有很多这是我的百度网盘下载地址:https://pan.baidu.com/s/1RANZQqjpw7VrEUjCV1uKCg上传解压,xiaoye@ubuntu2:~/Downloads$ lsapache-activemq-5.15.3-bin.tar.gz hive-0.13.1-cdh5....原创 2018-06-10 14:14:06 · 1076 阅读 · 0 评论 -
启动spark localhost: ssh: Could not resolve hostname localhost: Name or service not known
可查看hosts文件root@ubuntu:/home/xiaoye/zookeeper# vim /etc/hosts#127.0.0.1 localhost#127.0.1.1 ubuntu192.168.26.140 ubuntu192.168.26.141 ubuntu2192.168.26.142 ubuntu3看到localhost被注销掉了,那就试...原创 2018-06-10 12:53:25 · 10267 阅读 · 0 评论 -
三台linux ubuntu虚拟机只有一台能上网和连通主机,并且各机器间互相不能ping同
原由:我把hadoop集群的伪分布式三个虚拟机copy到了另一台机器上,经过修改ip后三台机器都能上网。但是过了一段时间后,在此启动虚拟机却始终只有一个虚拟机能够上网,很奇怪。小编在苦恼中找了一天原因。最后发现三个虚拟机之间居然也不能互相ping同。于是百度一下,发现:1.保证三台虚机网卡MAC地址不一致2.保证三台虚机网卡IP地址不一致,但在同一网段3.组内网请使用仅主机模式(用同一张虚拟网卡)...原创 2018-06-09 15:29:19 · 2935 阅读 · 0 评论 -
第一章,安装spark集群,测试和运行wordcount 案例
1.1下载spark地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.0/1.2上传解压;xiaoye@ubuntu:~/Downloads$ lsapache-activemq-5.15.3-bin.tar.gz hive-0.13.1-cdh5.2.0.tar.gzflume-ng-1.6.0-cdh5.10.1.t...原创 2018-06-09 10:37:26 · 4354 阅读 · 0 评论 -
eclipse集成Scala,运行Spark项目和<console>:1: error: ';' expected but '.' found. 报错
下载windows环境的scala:下载地址:https://www.scala-lang.org/download/然后运行安装就行了;2,eclipse集成scala(1) 在Eclipse中选择Help->Install new Software http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site然后进入到...原创 2018-06-11 22:16:38 · 8001 阅读 · 1 评论 -
hadoop集群启动步骤
(1)启动三个机器的日志节点:xiaoye@ubuntu:~$ hadoop/sbin/hadoop-daemons.sh start jorunalnode(2)单独启动ubuntu的namenode,注意命令的daemon不带s哦。xiaoye@ubuntu:~$ hadoop/sbin/hadoop-daemon.sh start namenode (3)ubuntu2节点执行命令:xiao...原创 2018-05-05 18:28:28 · 5022 阅读 · 0 评论 -
hdfs读写文件过程
文件参考:https://www.cnblogs.com/tgzhu/p/5788634.html以写入100M文件为例:Client将FileA按64M分块。分成两块,block1和Block2; Client向nameNode发送写数据请求,如图蓝色虚线①------> NameNode节点,记录block信息。并返回可用的DataNode (NameNode按什么规则返...转载 2018-05-05 17:12:25 · 1236 阅读 · 0 评论 -
hadoop集群 secondary namenode 的作用,fsiamge和edit的关系
首先secondary namenode不是namenode的备份,而是辅助namenode管理的,分担namenode的压力。此外,fsimage镜像文件读取数据到内存速度远快于读取edit日志文件,因此不能让edit的日志过大,所以定期把edit的内容合并到镜像磁盘中,这个合并过程就要用到secondary namenode。 fsimage:filesystem image 的...原创 2018-05-05 13:04:36 · 513 阅读 · 0 评论 -
hbase rowkey设计原则 和为什么nosql查询速度快
HBase RowKey概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根...转载 2018-07-28 16:52:00 · 1509 阅读 · 0 评论 -
hdfs的安全模式
安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,会在30s内HDFS自动离开安全模式。如果HDFS出于安全模式下,则文件block不能进行任何的副本复制操作,因此达到最小的副本数量...转载 2018-07-15 11:25:01 · 276 阅读 · 0 评论 -
hbase拾遗
1,hbase 全称:hadoop dataBase ,即hadoop数据库2,使用场景:大数据量,准实时查询3,特点:面向列,支持独立索引,每个列支持存储多版本,稀疏性:空列不占内存,可随意做列扩展,传统DB无数据的列会以null填充。因为hbase是基于hdfs 的所以具有扩展性、高可用性、动态增加DataNode、高性能:LSM数据结构(子节点不断合并成主节点),分区(region)...原创 2019-04-25 00:07:36 · 176 阅读 · 0 评论 -
linux显示所有文件的大小,显示文件夹下文件的个数,hadoop命令中查看文件夹下的个数命令,模糊查询
$ ll -hlinux 下查看文件个数及大小ls -l |grep "^-"|wc -l或find ./company -type f | wc -l查看某文件夹下文件的个数,包括子文件夹里的。ls -lR|grep "^-"|wc -l查看某文件夹下文件夹的个数,包括子文件夹里的。...原创 2017-10-17 09:04:43 · 3885 阅读 · 0 评论 -
Hadoop与 Spark中的Shuffle之区别与联系
转自:http://mini.eastday.com/mobile/180114141035935.htmlmapreduce过程解析(mapreduce采用的是sort-based shuffle),将获取到的数据分片partition进行解析,获得k/v对,之后交由map()进行处理。map函数处理完成之后,进入collect阶段,对处理后的k/v对进行收集,存储在内存的环形缓冲区中。...转载 2018-08-22 20:24:46 · 2609 阅读 · 0 评论 -
Hadoop/Spark相关面试问题总结
转自:https://www.cnblogs.com/gala1021/p/8519368.html1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mapper进行业务处理过程,将其转换成需要...转载 2018-08-22 20:23:32 · 343 阅读 · 0 评论 -
Hadoop 查看某个文件分成几个块,分别在那台机架的哪个机器上
hadoop fsck /usr/input/a.txt -files -blocks -locations -racks[root@node1 sbin]# hadoop fsck /usr/input/a.txt -files -blocks -locations -racksDEPRECATED: Use of this script to execute hdfs command...转载 2018-08-22 19:27:49 · 1044 阅读 · 0 评论 -
spark运行原理简单介绍和一些总结
1·,运行原理看个流程图:解说就是:1,构建spark Application运行环境2,sparkcontext向资源管理器注册3,sparkContext向资源管理器申请运行Executor(执行器)4,资源管理器分配executor5,资源管理器启动executor6,executor发送心跳至资源管理器7,sparkContext构建DAG图8,...原创 2018-08-22 19:09:05 · 2375 阅读 · 0 评论 -
hadoop默认对3个副本的存储策略和执行策略:
1,首先要先了解下什么是rack(机架)集群,一个集群有多个机架,一个机架有多个机器,一个机器一个datanode或namenode节点。通常一个机架内的机器之间的网络速度会高于跨机架机器之间的网络速度。2,但是要同时保持副本存储策略的容错性和高效性,第一副本:放置在上传文件的DN上(就是执行‘hadoop fs -put 文件名’上传文件命令的机器上,本地文件上传到同一台机器自然要快一点),如...原创 2018-08-22 19:28:00 · 7544 阅读 · 0 评论 -
namenode负责资源调度,yarn也是资源调度,二者的区别是什么
其实二者面向的对象是不一样的。namenode调度监控的对象是各个datanode节点的运行情况、属性信息;而yarn调度的是mapreduce,对hdfs的已有数据做统计的过程的调度监控。简单理解为一个是datanode,一个是mapreduce...原创 2018-08-08 10:44:33 · 905 阅读 · 1 评论 -
hvie hbase各自的使用场景
hive 底层是mapreduce,因此也很慢,但是它可以通过sql语句做方便操作在离线处理方面可以做数据分析。hbase是NOsql,查询非常快,近实时查询,解决了hdfs不能修改的缺陷。spark适用于实时查询,hbase速度稍慢于spark,也可用作实时查询,但是hbase可对数据做增删改;hive底层实现是hadoop的mapreduce,因此不使用与实时查询,hive是数据仓库,...原创 2018-08-14 13:52:47 · 382 阅读 · 0 评论 -
spark与hadoop的关联和区别,以及spark为什么那么快
spark为什么快?Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。其实,关键还是在于Spark 本身快。1,Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。所谓的内存计算技术也就是缓存技术,把数据放到缓存中,减少cpu...原创 2018-08-14 08:35:36 · 5155 阅读 · 0 评论 -
第三章:hadoop安装配置,jps命令不能使用。apt-get命令不能下载jdk,缺少依赖包,设置静态ip后不能上网,ubuntu防火墙,ssh无密码登录
首先安装jdk使用apt-get命令安装jdk,因为缺少依赖所以先下载依赖包,执行命令:sudo apt-get -f install安装提示执行所需的操作,接着执行命令:sudo apt-get updatesudo apt-get install default-jresudo apt-get install default-jdk再执行java -version...原创 2018-03-05 12:53:42 · 1779 阅读 · 0 评论 -
hive的数据存储(元数据,表数据)和内部表,外部表,分区表的创建和区别作用
hive的数据存储:首先弄清楚什么是元数据和表数据:元数据就是表的属性数据,表的名字,列信息,分区等标的属性信息,它是存放在RMDBS传统数据库中的(如,mysql)。表数据就是表中成千上万条数据了。hive的存储过程:启动hive时,会初始化hive,这时会在mysql中生成大约36张表(后续随着业务的复杂会增加),然后创建表,会在mysql中存放这个表的信息(不是以表的形式存在的,而是把表的属...原创 2018-07-15 15:29:17 · 7208 阅读 · 1 评论 -
Hadoop-Shuffle洗牌过程,与combine和partition的关系
Shuffle的正常意思是洗牌或弄乱,是MapReduce的核心。下图展示了Shuffle包含的步骤:phase:阶段partitions:分开,隔离marge/combine:合并上图包含了整个mapreduce过程,更准确的说shuffle包含partitions和sort、combine(merge)过程,对应map到reduce之间的过程,不包括map和redu...原创 2018-05-04 16:49:21 · 3341 阅读 · 0 评论 -
hdfs常用操作命令
先说一下"hadoop fs 和hadoop dfs的区别",看两本Hadoop书上各有用到,但效果一样,求证与网络发现下面一解释比较中肯。 粗略的讲,fs是个比较抽象的层面,在分布式环境中,fs就是dfs,但在本地环境中,fs是local file system,这个时候dfs就不能用。5.1 文件操作 1)列出HDFS文件 此处为你展示如何通过"-ls"命令列出HDFS下的文件:ha...原创 2018-05-04 10:42:56 · 12084 阅读 · 0 评论 -
第八章:sqoop数据迁移工具
sqoop是专门用来迁移数据的,它可以把数据库中的数据迁移到HDFS文件系统,当然也可以从HDFS文件系统导回到数据库。 我来说一下Sqoop的使用场景,假如你们公司有个项目运行好长时间了,积累了大量的数据,现在想升级项目并换种数据库进行存储原来的数据,那么我们就需要先把数据都存放到另一个地方,然后再用新数据库的语句把这些数据插入到新的数据库。在没有Sqoop之前,我们要做到这一点是...原创 2018-04-06 16:29:22 · 3441 阅读 · 0 评论 -
出现namenode不能启动的情况,就把hadoop安装目录下的hadoop目录下的data和name文件夹清空,
出现namenode不能启动的情况,就把hadoop安装目录下的hadoop目录下的data和name文件夹清空,再./bin/hadoop namenode -format 格式化namenode。最后重新启动。原创 2018-03-27 10:37:43 · 5220 阅读 · 0 评论 -
Unrecognized Hadoop major version number: 3.0.0
出现这种情况,别费劲想怎么解决了。直接删掉原先的hadoop,安装cdh版本。hadoop hive hbase都安装成cdh版本的原创 2018-03-27 10:35:14 · 10001 阅读 · 0 评论 -
hadoop/journal/ns: NameNode has clusterId 'CID-b82' but storage has clusterId 'CID-657
hadoop启动namenode日志报这个错,首先说怎么看日志,启动namenode会有这个,ubuntu: starting namenode, logging to /home/xiaoye/hadoop/logs/hadoop-xiaoye-namenode-ubuntu.out这是hadoop启动时会自动帮助写日志,并告诉我们日志的目录,我直接tail -200 /home/xiaoye/...原创 2018-04-02 10:25:32 · 1654 阅读 · 0 评论 -
第十一章 :日志采集工具flume使用
先我们来看一张图,如下所示,最上方代表三台设备,当然可以是更多的设备,每台设备运行过程都会产生一些log,这些log是我们需要的信息,我们不可能手动的一台一台的去收集这些log,那样的话太浪费人力了,这就需要一个自动化的采集工具,而我们今天要说的Flume便是自动化采集工具中的代表,flume可以自动从设备收集log然后将这些log上传到HDFS,HDFS会对这些log进行过滤,过滤后为了方便业务...原创 2018-04-07 20:40:51 · 1794 阅读 · 0 评论 -
第七章 :Hadoop+Zookeeper 3节点高可用集群搭建和原理解释
一,原理先说一下Zookeeper在Hadoop集群的作用,以前我们学习Hadoop伪分布式的时候没有用到Zookeeper是因为伪分布式只有一个NameNode,没有Active和Standby状态的两个NameNode之说,因此根本就不需要Zookeepr来帮我们自动切换。但是Hadoop真正的集群就不一样了,为了集群的高可靠性,Hadoop集群采用主备NameNode方式来工作,一个处于Ac...原创 2018-04-02 14:37:44 · 3901 阅读 · 0 评论 -
第五章 更换cdh版本,hive的安装使用,原理讲解
学过简单的wordcount后就开始使用hive吧这里先介绍下,怎么设置hadoop的环境变量提示:始终记得我们是ubuntu操作系统。这里由于小编的这里在安装hive时,由于出现了启动hive时出现了和hadoop的版本不一致的原因,并且始终没有解决,所以就改变策略使用cdh版本的hadoop和hive.因为cdh版本的比较系统,兼容性好。因此要重新安装了。下载地址如下:http://archi...原创 2018-03-11 19:59:18 · 2828 阅读 · 0 评论 -
Hadoop的安装与配置
首先安装jdk使用apt-get命令安装jdk,因为缺少依赖所以先下载依赖包,执行命令:sudo apt-get -f install安装提示执行所需的操作,接着执行命令:sudo apt-get updatesudo apt-get install default-jresudo apt-get install default-jdk再执行java -ve原创 2018-02-23 17:31:27 · 218 阅读 · 0 评论 -
第四章:hadoop 启动wordcount实例,包括hadoop自带jar包和eclipsejar包。hdfs常用命令
1,首先介绍启动hadoop自带的wordcount的jar包实例1.1启动hadoophadoop安装目录下:./sbin/start-all.sh查看进程:jps1.2 ,进入到home目录下,创建一个文本,随便写点东西1.3 进入到hadoop安装目录下,模糊查找hadoop 案例jar包我们用hadoop-mapreduce-examples-3.0.0.jar1.4 ./bin/hado...原创 2018-03-07 13:30:27 · 4877 阅读 · 0 评论 -
第一章,安装Vmware和Ubuntu
因为hadoop运行的平台是在linux上,而我们平时使用的电脑是windows系统的,所以要先按个虚拟机,最好的虚拟机软件自然是Vmware,下载他直接百度即可,如下:点击普通下载就行。安装都是下一步,最好安装在非C盘(非系统盘)。安装好启动需要秘钥,小编用的是Vmware14版本,百度网上的秘钥可用的有:FF31K-AHZD1-H8ETZ-8WWEZ-WUUVACV原创 2017-12-24 19:29:47 · 413 阅读 · 0 评论 -
第二章,ubuntu系统的查看防火墙,切换root用户,设置固定ip、系统时间等
第一次接触ubuntu系统,之前用的都是centos系统,因此也需要知道ubuntu的基本操作,跟centos的差别还是很大的。1,查看ip:ifconfig2,查看防火墙状态:sudo ufw status3,开启防火墙:sudo ufw enable4,关闭防火墙:sudo ufw disable5,安装好ubuntu后,我们一般要使用远程连接工具操作,这里使用的远程工具是原创 2017-12-26 15:29:25 · 2837 阅读 · 0 评论