- 博客(23)
- 收藏
- 关注
原创 安装hive并连接mysql
1.将hive解压到/usr/local下:[root@s100 local]# tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/local/12.将文件重命名为hive文件:[root@s100 local]# mv apache-hive-2.1.1-bin hive3.修改hive-env.sh因为 Hive 使用了 Hadoop, 需要在 hive-env.sh 文件中指定 Hadoop 安装路径:export JAVA_HOME=/u
2020-10-07 18:23:10
677
原创 mapreduce 练习13 找出博客共同好友
1.输入数据gjh@gjh:~/date$ cat fridents.txt A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,D1L:D,E,FM:E,F,GO:A,H,I,J2.第一次输出3.第二次输出4.FriendsOneMapperimport java.io.IOE
2020-10-07 15:18:21
565
原创 mapreduce练习12 流量使用前10
1.FlowBeanimport org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class FlowBean implements WritableComparable<FlowBean> { private long upFlow; private long do
2020-10-07 15:15:51
615
原创 mapreduce练习11 倒排索引
1.输入数据gjh@gjh:~/date$ cat index1.txt MapReduce is sample gjhgjh@gjh:~/date$ cat index2.txt MapReduce is powerful is samplegjh@gjh:~/date$ cat index3.txt Hello MapReduce hello world gjh2.输出3.代码import java.io.IOException;import java.net.URI;imp
2020-10-07 15:13:48
525
原创 mapreduce练习10 表合并map端
1.TableBeanimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;public class TableBean implements Writable { private String order_id; // 订单id private String p_id; // 产品id priva
2020-10-04 15:16:02
114
原创 mapreduce 练习9 表合并reduce端
1.TableBeanimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;public class TableBean implements Writable { private String order_id; // 订单id private String p_id; // 产品id priva
2020-10-04 15:10:00
135
原创 mapreduce练习8过滤日志自定义输出
1.FilterMapperimport java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper; public class FilterMapper extends Mapper<LongWr
2020-10-02 21:32:28
132
原创 mapreduce练习7 分组案例
1.OrderBeanimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException; import org.apache.hadoop.io.WritableComparable; public class OrderBean implements WritableComparable<OrderBean> { private int order_id; // 订单id号
2020-10-02 21:29:21
217
原创 mapreduce练习6分区排序
mapreduce 分区排序1.FCBeanWritableComparableimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class FCBeanWritableComparable implements WritableComparable<FCBeanWritab
2020-10-02 20:57:42
158
原创 mapreduce练习5 切片
1.maperimport org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class NLineMapper extends Mapper<LongWritable, Text,Text,LongWritable> { private Te
2020-10-01 22:28:53
95
原创 mapreduce练习4合并小文件
1.maperimport org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class SequenceFileMapper extends Mapper<Text, BytesWritable,Text,BytesWritable> {
2020-10-01 19:31:47
264
原创 mapreduce练习3 分区 将统计结果按照手机归属地不同省份输出到不同文件中(Partitioner)
练习2增加一个分区类1.对象import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.Set; import org.apache.hadoop.io.Writable; /** * Bean对象要需要实现Writable接口 * */ public class FlowBean implements Writable{ priva
2020-09-24 22:11:00
458
原创 mapreduce练习2自定义bean对象实现序列化接口(Writable)以及实现案例
1.对象import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.Set; import org.apache.hadoop.io.Writable; /** * Bean对象要需要实现Writable接口 * */ public class FlowBean implements Writable{ private long upF
2020-09-24 21:53:46
553
原创 mapreduce练习1统计输入文件中每一行的第一个单词相同的行数
统计输入文件中每一行的第一个单词相同的行数1.map操作import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class KVTextMapper extends Mapper<Text,Text,Text, IntWritable> {
2020-09-23 16:50:21
398
原创 hadopp分布式安装总结
1.三台虚拟机2.固定IP地址,修改主机名sudo vim /etc/hostname网络配置,包括ip地址,子网掩码,DNS服务器。修改每台电脑的hosts文件。hosts文件和windows上的功能是一样的。存储主机名和ip地址的映射。在每台linux上,sudo vim /etc/hosts 编写hosts文件。将主机名和ip地址的映射填写进去。3.安装jdk并配置坏境4.ssh无密码登陆,效果也就是在master上,通过 ssh host2 或 ssh host3 或 ssh ho
2020-09-21 12:07:44
323
原创 hdfs mapreduce操作
1.pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav
2020-09-17 20:25:35
103
原创 javaAPI 操作hdfs文件
1.pom文件配置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.
2020-09-17 20:08:38
145
原创 python3学习笔记,元组,字符串
元组使用小括号,列表使用方括号。元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可。列表:打了激素的数组元组:带了紧箍咒的列表, 不可变数据类型,没有增删改,但可以拼接占用内存小处理速度快可以存储任意数据类型元组中只包含一个元素时,需要在元素后面添加逗号,>>> a= (9)>>> type(a)<class 'int'>>>> a =(9,)>>> type(a)<class 'tu
2020-08-05 10:21:20
302
原创 python3学习笔记,优先级,列表
幂运算:**》正负号:+x -x》算术操作符: * / // + -》比较操作符: < <= > >= == !=》逻辑运算符: not and or三元运算又称三目运算,是对简单的条件语句的简写简单条件语句:if 条件成立:val = 1else:val = 2改成三元运算:val = 1 if 条件成立 else 2>>> a =3>>> b =7>>> val = a
2020-07-28 17:00:30
208
原创 python3学习笔记,Python内置函数就是python标准库里(语言自身携带的)函数(公共函数)
类型转换int()str()float()type()获取对象类型isinstance() 判断对象类型>>> type(a)<class 'int'>>>> isinstance(a,int)Trueid() 函数用于获取对象的内存地址。>>> id(a)1819960544len() 方法返回对象(字符、列表、元组等)长度或项目个数。>>> b=[1,2,33]>&g
2020-07-28 15:18:40
456
原创 python3学习笔记,random
python中的random模块用于生成随机数1.random.random用于生成一个0到1的随机符点数: 0 <= n < 1.0>>> import random>>> random.random()0.9880390054046888>>> random.random()0.293634336569036152.random.uniform的函数原型为:random.uniform(a, b),用于生成一个指定范围内的
2020-07-28 10:32:56
309
原创 python3学习笔记,变量
python3学习dir()是一个内置函数,用于列出对象所有属性和方法。help()查看函数或模块用途的详细说明>>> dir()['__annotations__', '__builtins__', '__doc__', '__loader__', '__name__', '__package__', '__spec__']>>> help(dir)Help on built-in function dir in module builtins:dir(
2020-07-28 09:28:08
160
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人