![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoopd
倪石
你已走到海角天涯,我还在穿鞋。连鞋带都不会系。
展开
-
hive的最简单部署
实验十 Hive实验:部署Hive由于图片上传麻烦.如果出现图片没有显示可以直接下载附件里面的文档10.1 实验目的1. 理解Hive存在的原因;2. 理解Hive的工作原理;3. 理解Hive的体系架构;4. 并学会如何进行内嵌模式部署;5. 启动Hive,然后将元数据存储在HDFS上。10.2 实验要求1. 完成Hive的内嵌模式部署;2.原创 2017-08-20 09:42:25 · 807 阅读 · 0 评论 -
hadoop 2.0安装的详细过程
---------------------------------------------------------------------------------------------------------------- hadoop2.0部署Hadoop部署是学习与应用 hadoop前的必由之路,也可以说是拦路虎,许多人都会卡在这一步,因为没有 hadoop集群环境或部原创 2017-08-20 09:29:49 · 835 阅读 · 0 评论 -
基于情感分析的mapreduce
package dshuju1;import java.io.IOException;import java.util.Arrays;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import原创 2017-07-24 11:09:41 · 1201 阅读 · 2 评论 -
kmeans基于mapreduce的实现
1. main函数读取质心文件2. 将质心的字符串放到configuration中3. 在mapper类重写setup方法,获取到configuration的质心内容,解析成二维数组的形式,代表质心4. mapper类中的map方法读取样本文件,跟所有的质心比较,得出每个样本跟哪个质心最近,然后输出5. reducer类中重新计算质心,如果重新计算出来的质心跟进来时的质心一致,那么自定义的coun原创 2017-06-27 11:20:41 · 1240 阅读 · 0 评论 -
topk在mapreduce下面的统计加排序的实现
给定的原始数据集如下:All of us have read thrilling stories in which the hero had only a limited and specified time to live. Sometimes it was as long as a year, sometimes as short as 24 hours. But always we we原创 2017-07-04 15:46:18 · 336 阅读 · 0 评论 -
朴素贝叶斯的mapreduce的java实现
模仿一些大神,盗版了一个版本原始数据的实例,1,0代表这些数据的标签,也就是数据按照1,0分类1:B,C,D,F,E,L0:A,C,E,K1:F,A,D,I写了4部分 第一部分 算出每个标签下面的单词总数的统计 输出结果样式 0 12 1 19意思是标签的单词有12个,1标签下面的单词有19个第二部分 算出一共要有多少个不同的单词 结果输出样式 sum 20 意思是数据原创 2017-07-02 16:54:58 · 803 阅读 · 0 评论 -
hadf的常见命令
hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 Hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本原创 2017-05-31 15:01:02 · 1505 阅读 · 0 评论 -
电话号码上传下载流量的hadoop代码简单实现
import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;public class DataCount {pub原创 2017-05-09 11:22:54 · 579 阅读 · 0 评论 -
hadoop的一些基本问题
1给定a,b 二个文件,各存放50亿各url每个url各存64个字节,内存限制是4g,找出a,b文件共同的url哈希表 2有1亿个数,随机分布,求前一千个最大的数,内存限制为100兆分块 3有2.5亿个正整数中找出不重复的整数。内存2.5g为每个整数设置标志位,有2位组成00 01 10 11分别表示没出现过,出现过1次,出现过多次,不考虑分别遍原创 2017-05-14 10:57:24 · 303 阅读 · 0 评论 -
Hive的基本增删改查代码
创建一个简单表CREATE TABLE table()创建外部表CTRAT EXTERNAL TABLE page_view(viewTime INT,userid BIGINT,ROW FORMAT DELIMITED FIELDS TERMINATED BY//指定了列分隔符为\001COLLECTION ITEMS TERMINATED B原创 2017-05-11 14:21:57 · 4067 阅读 · 0 评论 -
简单的单词个数统计的mapreduce 的代码实现
简单的单词个数统计的mapreduce 的代码实现的解读数据格式如下hello tomhello jerryhello kittyhello worldhello tom5行内容,分别统计每个单词出现的次数分别建了3个类第一个 主函数wordcount的类public class WordCount {public static void mai原创 2017-05-02 09:35:00 · 1777 阅读 · 0 评论 -
hive的简单优化
1.将大表放在后面,它会将其他表缓存起来,然后最后扫描大表2.使用相同的连接键对于三个或者多个表进行join连接的时候,如果每个on子句都使用相同的连接键,只会产生一个MapReduce job3,尽量尽早的过滤数据4.尽量原子化操作.尽量避免一个sql包含复杂逻辑5.order by :对查询结果进行全局排序,消耗时间长 和sort by : 局部排序,提高效率6,原创 2017-08-24 15:04:59 · 192 阅读 · 0 评论