大数据
乐乐今天没bug
嵌入式软件架构师(实习版)
展开
-
Hadoop运行MR报错:Exception in thread “main“ org.apache.hadoop.mapred.FileAlreadyExistsException
Exception in thread “main” org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/E:/bigdata/file/output already exists这个报错是说你输出的路径已存在要不就把输出路径给改了要不就把这个目录给删了...原创 2020-09-01 11:10:48 · 2990 阅读 · 0 评论 -
Hadoop本地运行MapReduce报错:Caused by: java.io.FileNotFoundException
java.lang.Exception: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1 at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462) at org.apache.hadoop.mapred.LocalJobRunner$Job.run(Loca原创 2020-09-01 10:58:39 · 1283 阅读 · 0 评论 -
Failed to locate the winutils binary in the hadoop binary path
遇到问题:Failed to locate the winutils binary in the hadoop binary path参考了大佬的解决办法:解决Hadoop报错:Failed to locate the winutils binary in the hadoop binary path我的hadoop版本是2.7.2的 所以下了2.7.2的bin配置好了环境变量之后在cmd中并不能显示hadoop版本并且显示找不到或无法加载主类于是又参考了大佬的解决方案:解决安装Hadoop后cm原创 2020-09-01 09:37:46 · 677 阅读 · 0 评论 -
MapReduce-在日志中输出函数-计数器
目录需求分析及实现结果分析需求需求还是那个需求啊!!删除文件中缺失值大于三个的记录,并输出删除行数分析及实现数据编写了一个1.csv用作测试数据,其中满足删除条件即缺失值大于三个的数据有4行,是所有偶数行,进行清洗之后,保留的数据有5行,是所有奇数行,文件具体数据内容如下:1,l1,l2,l3,l4,l5,l6,l7,l8,l92,l1,NULL,NULL,NULL,NULL,...原创 2019-11-08 21:18:15 · 680 阅读 · 2 评论 -
hive-删除表中数据
目录背景发现问题解决办法总结背景表结构和表数据:我有一个表(如下)hive> select * from t2;OKt2.id t2.name t2.addr t2.n1 t2.n2 t2.n31 NULL NULL NULL NULL NULL2 NULL NULL NULL NULL NULL3 3n1 3n2 3n3 NULL NULL4 NULL NULL 4...原创 2019-11-07 15:39:08 · 2167 阅读 · 0 评论 -
spark-傲娇的filter()
spark version : 2.0.0已知val df = spark.read.json("hdfs路径")df.createTempView("person")如果执行spark.sql("select * from person")有如下表结构:agename20aoge19mengmeng问题但是在使用df.filter()时出现...原创 2019-11-02 16:44:05 · 308 阅读 · 3 评论 -
hive-查询并写入新表操作案例
文章目录需求需求分析数据表样式命令和结果需求统计城市酒店数量和房间数量, 以城市房间数降序排列, 并打印前10条统计结果将结果写入table3_1中查看table3_1的前5行数据需求分析数据表样式数据项字段名省份provice城市city酒店数量hotel_num房间数量room_num数据样式:provincec...原创 2019-10-25 11:22:42 · 3956 阅读 · 0 评论 -
JSON-终于解决了一个需求是什么体验!
目录需求原需求更改后的需求需求分析数据逻辑voidAddData()String LackOverThree(JSONObject json)main()代码实现总结需求原需求(MapReduce向)运行代码,删除数据源中缺失值大于3个字段的数据,打印删除数量;更改后的需求运行代码,解析json格式数据,删除数据源中缺失值大于3个字段的数据,打印缺失值个数;需求分析数据因为需求是要...原创 2019-10-24 20:51:53 · 223 阅读 · 0 评论 -
JSON学习笔记-MR-phone_Driver
文章目录源码:分析笔记:private static Path setPath(Job job)public static void main(String[] args)修改后的代码:源码:(源码来自网络)package testDemo;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.P...原创 2019-10-24 17:31:50 · 226 阅读 · 0 评论 -
JSON学习笔记-MR-phone_mapper
源码:(源码来自网络)package testDemo;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;impor...原创 2019-10-24 16:07:54 · 291 阅读 · 0 评论 -
MapReduce学习笔记-MR编程规范
MR编程规范用户编写的程序分为三部分:Mapper,Reducer,DriverMapper自定义的Mapper要继承自己的父类输入是kv对的形式,类型可自定义业务逻辑在map()函数中实现输出也是kv对形式map()对每一组kv对只能调用一次Reducer自定义的Reducer要继承自己的父类输入是类型对应Mapper的输出,也是kv对形式业务逻辑写在reducer(...原创 2019-10-24 11:37:28 · 319 阅读 · 1 评论 -
hive学习笔记-执行sql脚本
执行sql脚本的两种方式脚本t.sqluse try;select * from a_try;注:a_try表在try库中;在hive外部运行脚本hive -f t.sql注意:该命令一定要和t.sql在同一目录下运行,否则就找不到文件!在hive中运行脚本hive > source t.sql;注意:启动hive的目录也要和脚本所在目录一致,否则就找不到文件!...原创 2019-10-23 16:32:21 · 2165 阅读 · 0 评论 -
SQOOP学习笔记-报错怎么办?打就完了!
SQOOP学习笔记-报错怎么办?打就完了!遇到的问题解决遇到的问题命令:sqoop export –connect jdbc:mysql://172.16.1.8:3306/metastore –username root –password password123 –table try_2 –num-mapper 1 –export-dir /user/hive/warehou...原创 2019-10-23 13:58:44 · 1732 阅读 · 6 评论