大数据
lies@
这个作者很懒,什么都没留下…
展开
-
Day18[20200801]
原创 2020-08-01 18:40:38 · 85 阅读 · 0 评论 -
Day17[20200731]
原创 2020-08-01 18:37:33 · 98 阅读 · 0 评论 -
Day16[20200730]
原创 2020-08-01 18:33:05 · 74 阅读 · 0 评论 -
Day15[20200727]
一、Hive练习 1.分区表 我们有这样的一组数据: 6,APPLE,北京,35 2,APPLE,上海,47 数据脱敏,将原来的真实数据中敏感的信息进行模糊化,或者部分数据直接删除。 id-》uuid-》变成了自动增长 手机型号-》具体到什么品牌什么型号-》只保留了手机品牌 城市-》 国-县-市-区(数字表示)-》只保留城市 年龄-》身份证号码-》经过脱敏后,转换为年龄 继续脱敏,删除部分数据,去除字段 。。。。。 数据量:55Wx2 -》 超过百万的数据量 我们在hive中执行如下的命令 select c原创 2020-08-01 18:17:47 · 250 阅读 · 0 评论 -
Day14[20200726]
一、回顾 1.数据倾斜 数据倾斜/数据热点 数据倾斜产生的原因 数据倾斜大部分情况下是不可避免的。 数据倾斜解决方案 2.自定义函数 Hive不是MySQL Hive的底层是Java MySQL中的count()是MySQL提供的功能 , MySQL底层是C Hive中的count()其实就是Java中的一个方法! 我们就自己写一个简单的方法 , 导入Hive中完成一个简单的需求。 统计字符串长度 select word,charcount(word) from wc; hadoop 6 ja原创 2020-08-01 18:12:40 · 243 阅读 · 0 评论 -
Day13[20200725]
一、课程回顾 1.共同的问题 (1)换行 lines terminated by ‘\n’ -> 让Java将换行符作为两条数据分分隔符 …metastore?\ncreate… xml的配置文件 不要有中文,不要有空格,不要有tab,不要换行 ** ** (2)关于日志 hive的日志需要自己配置一下的 [hadoop@hadoop212 conf]$ vim hive-log4j.properties 2.核心知识点 (1)关于Hive Hive是一个Java编写的应用程原创 2020-08-01 18:07:03 · 238 阅读 · 0 评论 -
Day12[20200724]
原创 2020-08-01 18:00:55 · 61 阅读 · 0 评论 -
Day11[20200723]
原创 2020-08-01 17:50:36 · 90 阅读 · 0 评论 -
Day09[20200721]
原创 2020-08-01 17:48:00 · 58 阅读 · 0 评论 -
Day08[20200720]
原创 2020-07-20 17:24:12 · 80 阅读 · 0 评论 -
Day07[20200719]
原创 2020-07-20 10:30:44 · 84 阅读 · 0 评论 -
Day06[20200718]
原创 2020-07-20 10:25:11 · 72 阅读 · 0 评论 -
Day04[20200716]_数据库高级
一、课程回顾 1.数据的更新 (1)新增数据 insert into commoditytype (ct_id,ct_name) values (1,'玩具'); insert into commoditytype (ct_id,ct_name) values (2,'文具')(3,'书籍'); 比较常见的错误: 违反主键约束。违反外键约束。值的数量不匹配。 (2)删除数据 delete from commoditytype where ct_id=3; 删除需要注意的事项: 如果没有whe原创 2020-07-20 09:19:17 · 150 阅读 · 0 评论 -
Day05[20200717]
原创 2020-07-20 09:25:09 · 115 阅读 · 0 评论 -
Day02[20200714]_数据库核心
一、课程回顾 1.数据库的分类和介绍 数据库的分类: 关系型数据 [MySQL57] 非关系型数据库 [mongodb] NewSQL [MySQL80] 2.MySQL数据库的下载和安装 在安装的时候,我们需要学会观察日志文件。 无论安装还是卸载,完成后必须重新启动计算机。 MySQL安装成功的唯一标准是系统服务中能够正常启停服务。 上图是MySQL进行操作的整个完整的流程。 这个客户端是 mysql.exe C:\Program Files\MySQL\MySQL Server 5.7\bin m原创 2020-07-19 23:44:24 · 201 阅读 · 0 评论 -
Day01[20200713]
原创 2020-07-19 07:55:57 · 70 阅读 · 0 评论 -
大数据竞赛的数据基本流程
准备的各个阶段原创 2020-04-26 08:44:56 · 1645 阅读 · 0 评论