cauwt-CSDN博客

转载 Spark性能优化总结

注：本文是根据以下两篇文章进行的总结。https://tech.meituan.com/spark-tuning-basic.htmlhttps://tech.meituan.com/spark-tuning-pro.htmlSpark性能优化总结1 开发调优1.1 原则一：避免创建重复的RDD1.2

2017-10-24 08:05:29 316

原创 Hive作业

最近学习Hive。实现了其中几个作业，如下。Hql语句没怎么调整格式，见谅。 Hive练习二中的题目(1). 2017 年4 月1 日各个商品品牌的交易笔数，按照销售交易从多到少排序1 select 2 brand,3 count(*) as totalCount 4 from 5 record 6 join brand_dimension on record.bid = br

2017-10-16 08:19:36 1183

原创使用 MapReduce 实现分组排名

题目：1.输出男女组各前3名。2.分组降序输出所有人的成绩。3.对应的SQL语句。数据：scores: name,age,gender,score解答如下：1. 输出男女组各前3名。Java代码 1 class ContestStatTop3Mapper extends Mapper { 2 3 private Text outKey = new Text();

2017-10-16 08:19:33 990 1

原创 Hadoop生态圈各组件的启动及关闭脚本

将所学知识整理一下，备忘。 1. Hdfs (v 2.7.3)1.1.启动集群sbin/start-dfs.sh注：这个启动脚本是通过ssh对多个节点的namenode、datanode、journalnode以及zkfc进程进行批量启动的。1.2.启动NameNodesbin/hadoop-daemon.sh start namenode1.3.启动DataNodes

2017-10-16 08:19:31 630

原创 Hadoop生态圈

2017-10-16 08:19:28 456

原创大数据学习笔记：Flume导数据至Kafka

一、任务描述：将本地目录~/testdata/logs.件夹下的所有.本.件通过Kafka Sink写入Kafka中的flume topic（topic名称为：flume-topic）数据流~/testdata/logs -> flume -> kafka 二、版本信息：flume:1.7.0zookeeper:3.4.5kafka:2.10-0.10.1.1节点数：3三、相关

2017-10-16 08:19:25 1667 1

原创强类型、弱类型、动态类型、静态类型语言

收集了一些关于编程语言分类的文章：一、作者：rainoftime链接：https://www.zhihu.com/question/19918532/answer/21647195来源：知乎类型系统的一些概念，众说纷纭，使用上也比较乱。有些东西，甚至不好严格定义。以下算学术界的一种相对“严格”的说法。1. 先定义一些基础概念Program Errorstrapped e

2017-10-16 08:19:23 400

原创 Hdfs结点格式化后重启集群

在hdfs结点格式化后，集群的ID分发生变化。此时有两个解决方案：一、彻底重启集群1. 停止整个集群2. 删除出现问题的datanode上的dfs.namenode.data.dirdfs.namenode.data.dir/tmp/hadoop−">, 此变量是在$HADOOP_CONF_DIR/下的hdfs-site.xml里定义的。3. 重新格式化namenode,

2017-10-16 08:19:20 388

原创 Hadoop启动过程中，遇到ssh登录0.0.0.0的问题

Hadoop启动过程中，如果遇到手工ssh登录的问题，是因为之前没有配置0.0.0.0的免密登录。解决方法：ssh-copy-id 0.0.0.0 #解决0.0.0.0的免密登录问题ssh-copy-id master# 解决本身的免密登录问题（假设本机名为master）

2017-10-16 08:19:17 1194

原创安装Hadoop 2.7.3的过程中遇到的一些问题及解决方法。

1. 启动hadoop 时发现namenode 没有启动起来出现以下错误：Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.原因与解决：通过以下两个帖子， https://stackoverflow.

2017-10-16 08:19:15 636

原创 Hadoop 如何退出安全模式

在name node 上运行如下命令hadoop dfsadmin -safemode leave

2017-10-16 08:19:12 7866

原创配置时间同步时，遇到同步无法成功的解决方法

环境：三台虚拟机：master,slave1,slave2master同步主机的时间slave1, slave2同步master的时间问题：当启动了三台机器的ntpd 服务后，发现时间与主机时间不一致。原因与解决方法：打开/etc/ntpd.config，发现有这样两句1 server 127.127.1.0 # local clock2 fudge 127.127.1

2017-10-16 08:19:09 9946

转载协同过滤算法之Apriori介绍

工作中用到了Apriori算法，摘要如下：一、Apriori算法简介： Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori（先验的，推测的）算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯；网络安全领域中的入侵检测技术；可用在用于高校管理中，根据挖掘规则可以有效地辅助学校管理部门有针对性的

2017-09-11 17:19:26 941

转载 Hadoop 2.7.4 源代码编译

一、安装所需要的工具a) 下载hadoop源码 (当前最新的稳定版是2.7.4)地址 http://mirrors.hust.edu.cn/apache/hadoop/common/stable/hadoop-2.7.4-src.tar.gz b) 下载并解压apache-ant (centos自带的ant版本太低，编译过程中会报错)地址： http://mirrors.cnni

2017-09-06 07:13:37 1407

cauwt的博客