hadoop
文章平均质量分 80
流萤的花火
这个作者很懒,什么都没留下…
展开
-
Spark中的Spark Shuffle详解
Spark中的Spark Shuffle详解Shuffle简介Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存,磁盘IO的消耗。通常shuffle分为两部分:Map阶段转载 2022-03-21 23:45:20 · 707 阅读 · 0 评论 -
Eclipse运行wordcount程序时报Connection timed out: no further information
Eclipse运行wordcount程序时报错,信息如下:2020-08-15 16:12:32,580 INFO [main] mapreduce.Job (Job.java:monitorAndPrintJob(1367)) - map 0% reduce 0%2020-08-15 16:12:52,739 WARN [LocalJobRunner Map Task Executor #0] hdfs.BlockReaderFactory (BlockReaderFactory.java:g...原创 2020-08-15 16:59:39 · 579 阅读 · 0 评论 -
flink
https://www.cnblogs.com/importbigdata/p/10747061.html转载 2020-06-18 09:53:27 · 272 阅读 · 0 评论 -
solr
环境:cloudera-quickstart-vm-5.13.0-vmwaresolr版本:4.10.3solr web操作:插入数据: 导入csv格式文件: 1.cd /var/lib/solr/test_conf/conf编辑schema.xml和solrconfig.xml这两个文件:schema.xml: <field name="id" ty...原创 2019-12-12 15:20:17 · 110 阅读 · 0 评论 -
HDP
https://www.cnblogs.com/sanyuanempire/p/6164116.html?utm_source=itdadao&utm_medium=referral转载 2019-12-11 10:56:53 · 263 阅读 · 0 评论 -
vm-quick-start使用
根据需要去官网下载所需cdh vm-quick-start镜像用虚拟机打开进入以后发现连接打不开:其实是cloudera-manger没有启动,切换至如下目录:/home/cloudera,./cloudera-manager --force --express,命令成功执行后如图所示:,重新进入即可常用端口:7180,8088,50070hadoop e...原创 2019-09-15 21:08:15 · 277 阅读 · 0 评论 -
利用 Docker 搭建单机的 Cloudera CDH 以及使用实践
利用 Docker 搭建单机的 Cloudera CDH 以及使用实践:https://www.cnblogs.com/piperck/p/9917118.html转载 2019-04-28 16:02:50 · 840 阅读 · 0 评论 -
hive爬坑
hadoop:1.core-site.xml 配置ip和port的时候不能用localhost,必须用ip或者主机名;2.必须进行格式化,特别是namenode 名称发生变化的时候:bin/hdfs namenode -format3.成功启动后,可以访问 Web界面http://ip:50070查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文...原创 2019-03-23 16:28:43 · 149 阅读 · 0 评论 -
Hive
HIVE建表:1.txtfiel格式存储:存储方式为行存储,磁盘开销大 ,数据解析开销大,但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。例子:CREATE EXTERNAL TABLE page_view_stg(viewTime INT, userid BIGINT, page_url STRING, referrer_url...原创 2019-03-24 20:51:37 · 109 阅读 · 0 评论 -
zookeeper
zookeeper节点关系:http://www.cnblogs.com/dream-to-pku/p/9513188.html转载 2019-02-14 09:54:47 · 101 阅读 · 0 评论 -
Hbase
Hbase: row key: column family: qualifier column:----------create 'emp','personal data','professional data';put 'emp','1','personal data:name','raju';disrcibe 'em...原创 2019-01-29 13:18:25 · 155 阅读 · 0 评论 -
zookeeper+sorl 伪分布式搭建
1 什么是SolrCloud SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用 SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大,搜索请求并发很高,这时需要使 用SolrCloud来满足这些需求。 SolrCloud是基于Solr和Zookeeper的分布式搜索方案,...原创 2018-09-12 15:02:27 · 151 阅读 · 0 评论