人生路且修且行
码龄7年
关注
提问 私信
  • 博客:196,553
    动态:6
    196,559
    总访问量
  • 116
    原创
  • 874,845
    排名
  • 38
    粉丝
  • 0
    铁粉

个人简介:大数据开发,一起探讨一起进步吧

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2017-11-04
博客简介:

修行的博客

查看详细资料
个人成就
  • 获得73次点赞
  • 内容获得18次评论
  • 获得381次收藏
  • 代码片获得271次分享
创作历程
  • 2篇
    2021年
  • 40篇
    2020年
  • 85篇
    2019年
成就勋章
TA的专栏
  • 面试知识总结
    7篇
  • mysql
    12篇
  • 工作猎及---数据库
    6篇
  • Spark项目
    7篇
  • 工作猎及---Java
    3篇
  • 工作猎及---集群
    4篇
  • Sqoop
    1篇
  • Impala
    1篇
  • Flume
    1篇
  • 23种设计模式
    8篇
  • Kafka
    1篇
  • 大数据
    51篇
  • Spark
    14篇
  • Scala
    4篇
  • Python
    8篇
  • ElasticSearch
    1篇
  • Redis
    2篇
  • Storm
    4篇
  • Hbase
    3篇
  • Hive
    19篇
  • Yarn
    2篇
  • Hadoop
    8篇
  • ZooKeeper
    2篇
  • Nginx
    1篇
  • Linux
    5篇
  • Flink
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

spark读取嵌套json代码测试示例

示例一示例数据:{"name":"zhangsan","age":18,"scores":[{"yuwen":98,"shuxue":90,"yingyu":100},{"dili":98,"shengwu":78,"huaxue":100}]}{"name":"lisi","age":19,"scores":[{"yuwen":58,"shuxue":50,"yingyu":78},{"dili":56,"shengwu":76,"huaxue":13}]}{"name":"wangwu","ag
原创
发布博客 2021.05.12 ·
450 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

大文件处理方案

处理海量数据问题,无非就是:分而治之/hash映射 + hash统计 + 堆/快速/归并排序;Bloom filter/Bitmap;Trie树/数据库/倒排索引;外排序;分布式处理之hadoop/mapreduce。本文接下来的部分,便针对这5种方法模式结合对应的海量数据处理面试题分别具体阐述。密匙一、分而治之/hash映射 + hash统计 + 堆/快速/归并排序1、海量日志数据,提取出某日访问百度次数最多的那个IP。既然是海量数据处理,那么可想而知,给我们的数据那就一定是海量的。针对
转载
发布博客 2021.03.16 ·
1042 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Mysql项目实践常用操作汇总(不断更新)

MySQL1、主键,索引,引擎CREATE TABLE `表名` ( `列名1` int(11) NOT NULL, `列名2` varchar(255) NOT NULL, .... PRIMARY KEY (`主键1`,`主键2`,`主键3`...), KEY `索引名` (`列名1`,`列名2`...) USING BTREE) ENGINE=InnoDB DEFAULT CHARSET=utf8;tips: PRIMARY KEY (`主键1`,`主键2`,`主键
原创
发布博客 2020.11.12 ·
636 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Hive项目实践常用操作汇总(不断更新)

Hive1、分隔符前后字段截取Tips:mysql的3种字段截取;1、`SUBSTR(s, start, length)从字符串 s 的 start 位置截取长度为 length 的子字符串从字符串 RUNOOB 中的第 2 个位置截取 3个 字符:`SELECT SUBSTR("RUNOOB", 2, 3) AS ExtractString; -- UNO2、`SUBSTRING(s, start, length)从字符串 s 的 start 位置截取长度为 length 的子字符串从字符串
原创
发布博客 2020.11.12 ·
785 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Linux项目实践中常用操作汇总(不断更新)

Linux1、linux查看时间,可写入脚本中datedate -d 0day +%Y%m%d显示前1小时的时间 date +%Y%m%d%H -d '-1 hours' 显示前1天的时间date +%Y%m%d -d '-1 days'daySelect=`date +%Y%m%d -d '-1 days'`如果是shell脚本需要使用时间的话,使用时记得加单引号,否则会有换行符,无法使用。2、linux查看日志/文件内容less 文件/日志名shift + G 跳至最后
原创
发布博客 2020.11.11 ·
584 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

Mysql--GROUP BY xxxx WITH ROLLUP用法

GROUP BY xxxx WITH ROLLUP– GROUP BY xxxx WITH ROLLUP 是为了算出所有聚合函数的总结果SELECT day FROM dim_5g_cell_info GROUP BY day;SELECT day FROM dim_5g_cell_info GROUP BY day WITH ROLLUP;SELECT day,SUM(ant_engine_angle) FROM dim_5g_cell_info GROUP BY day;SELECT coa
原创
发布博客 2020.11.11 ·
250 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Mysql--查询时使用SQL将字段的数据类型转换(varchar->int)

查询时使用SQL将数据类型转换在sql里面String转int(相互),sql中,将int数据类型如何转换为string用convert函数或者cast函数convert(varchar(20),'')cast('' as varchar(20))我的表里有3个int型的列a、b、c,希望把他们连成一个string型的列a-b-cselect ltrim(a)+'-'+ltrim(b)+'-'+ltrim(c) as dselect cast(a as varchar)+'-'+cas
原创
发布博客 2020.11.11 ·
11725 阅读 ·
3 点赞 ·
0 评论 ·
11 收藏

Myswl--查询表信息

查询表信息SELECT COLUMN_NAME 列名, DATA_TYPE 字段类型, CHARACTER_MAXIMUM_LENGTH 长度, IS_NULLABLE 是否为空, COLUMN_COMMENT 备注FROM INFORMATION_SCHEMA.COLUMNSWHERE table_name = '表名';
原创
发布博客 2020.11.11 ·
293 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Mysql--两表join时的on和where区别

两表join时的on和where区别表A join 表B----条件–on—> 临时表—where—> 结果表on是作为临时表的筛选条件,where作为最终表的筛选条件总结一:1.where 是在两个表join完成后,再附上where条件;2.and 则是在表连接前过滤A表或B表里面哪些记录符合连接条件,同时会兼顾是left join还是right join。即假如是左连接的话,如果左边表的某条记录不符合连接条件,那么它不进行连接,但是仍然留在结果集中(此时右边部分的连接结果为NU
原创
发布博客 2020.11.11 ·
1801 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Mysql--备份表结构和数据

备份表结构和数据将数据库的A表快速备份到B表中:方法1:DROP TABLE IF EXISTS B;CREATE TABLE B LIKE A;INSERT INTO B SELECT * FROM A;方法2:SELECT * INTO A_copy FROM A;
原创
发布博客 2020.11.10 ·
1743 阅读 ·
2 点赞 ·
0 评论 ·
8 收藏

Mysql--删除数据

删除数据– 删除除白沙外的所有行数据:delete from 表名 where 字段名 <>‘xx’;– 删除除白沙、北京外的数据:delete from 表名 where 字段名 not in(‘xx’,‘oo’);– 或者delete from 表名 where 字段名 <>‘xx’ and 字段名<>‘oo’;...
原创
发布博客 2020.11.10 ·
184 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Mysql--在原有表结构上添加字段并赋值

在原有表结构上添加字段并赋值加字段SQL:alter table tasktemplate add TaskType varchar(50);给新加字段赋值:update tasktemplate set TaskType=‘AUTOTEST’;update test1 set if_top=1 where pro=844;注释:给表tasktemplate 加一字段 TaskType 并且赋值为‘AUTOTEST’;ALTER TABLE tbnameADD COLUMN state TI
原创
发布博客 2020.11.10 ·
5668 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Mysql--导入数据(本地+HDFS数据入库)

导入数据在mysql中建好表后,导入数据的时候使用了2种方法1)由txt/xlsx/xls文件导入网上步骤一步一步进行即可,地址链接https://jingyan.baidu.com/article/48a420571a6f71a9242504fe.htmlTips:使用该方法遇到的问题: 1、使用txt文档导入数据时,即使txt文档数据和表字段一一选好,但还是会出现错位的情况,不知为何在他导入的时候会自己重新排插入表字段的顺序,还是会对应不上; 2、使用xlsx/xls导入数据时,字段缺少
原创
发布博客 2020.11.10 ·
1119 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Mysql--主键,索引,引擎

主键,索引,引擎CREATE TABLE `表名` ( `列名1` int(11) NOT NULL, `列名2` varchar(255) NOT NULL, .... PRIMARY KEY (`主键1`,`主键2`,`主键3`...), KEY `索引名` (`列名1`,`列名2`...) USING BTREE) ENGINE=InnoDB DEFAULT CHARSET=utf8;tips: PRIMARY KEY (`主键1`,`主键2`,`主键3`...)
原创
发布博客 2020.11.10 ·
239 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive--array<< struct >>字段结构查询

Hive库array<< struct >>字段结构查询建表相关语句: `sector_set` array<struct<gnb_id:int,cell_id:int,mr_count:bigint,rsrp_avg:double,sn:int,dist:int,cell_name:string>> COMMENT 'TOP5', `sector_set`字段数据表现形式:[{"gnb_id":7799206,"cell_id":2,"mr_co
原创
发布博客 2020.11.10 ·
2711 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Hive--!= 和 <> 和 is not null区别和使用

!= 和 <> 和 is not null//不会查出字段是null的数据SELECT * FROM table WHERE IsDeleted <> true AND name LIKE '%%' ;SELECT * FROM table WHERE IsDeleted != true AND Name LIKE '%%';//可以查出字段是null的数据SELECT * FROM table WHERE IsDeleted is not true AND name L
原创
发布博客 2020.11.10 ·
5510 阅读 ·
2 点赞 ·
0 评论 ·
23 收藏

Hive--添加/更改表字段类型

Hive添加表字段新增字段表alter table 表名 add columns(字段名 数据类型)alter table table_name add columns (c_time string comment '当前时间');-- 正确,添加在最后alter table table_name change c_time c_time string after address; -- 正确,移动到指定位置,address字段的后面Hive更换已有表字段类型Hive 表修改字段类型
原创
发布博客 2020.11.10 ·
12034 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

Hive--清除/删除Hive表数据,where条件

清除Hive表数据hive删除表:drop table table_name;hive删除表中数据:truncate table table_name;hive按分区删除数据:alter table table_name drop partition (partition_name='分区名')全表: 1、删除内部表中数据(保留表结构) truncate table 表名; 2、删除外部表中数据(保留表结构) hdfs -dfs -rm -r 外部表路径 drop tabl
原创
发布博客 2020.11.10 ·
16001 阅读 ·
4 点赞 ·
1 评论 ·
34 收藏

Hive--OR-AND使用方法

OR-AND数据源: 1,22 1,21 2,22 1,20select * from id_age where (id=1 or id =2) and age=22;表示: 查询id=1,同时age=22或者id=2,同时age=22的数据,数据只要id=1或者id=2都要加age=22这个条件 即id=1 and age=22/id=2 and age=22显示结果: 1,22 2,22 select * from id_age where id=1 or id =2 an
原创
发布博客 2020.11.10 ·
4476 阅读 ·
4 点赞 ·
1 评论 ·
9 收藏

Hive--count(distinct)多字段问题

count(distinct)多字段问题select count(distinct(字段a | 字段b)) from 表名;
原创
发布博客 2020.11.09 ·
1891 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多