A_ChunUnique
码龄10年
关注
提问 私信
  • 博客:179,407
    179,407
    总访问量
  • 79
    原创
  • 588,956
    排名
  • 44
    粉丝
  • 0
    铁粉

个人简介:大数据爱好者

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:日本
  • 加入CSDN时间: 2014-10-21
博客简介:

UniqueChunBlog

博客描述:
大数据学习随笔!
查看详细资料
个人成就
  • 获得35次点赞
  • 内容获得15次评论
  • 获得96次收藏
  • 代码片获得181次分享
创作历程
  • 1篇
    2023年
  • 3篇
    2019年
  • 18篇
    2018年
  • 67篇
    2017年
成就勋章
TA的专栏
  • Hadoop
    14篇
  • Linux
    5篇
  • MySQL
    8篇
  • Spark
    12篇
  • Hive
    15篇
  • SSH
    1篇
  • Java
    3篇
  • Sqoop
    6篇
  • CDH
    3篇
  • Shell
    2篇
  • zookeeper
    1篇
  • Hbase
    2篇
  • github
    1篇
  • Phoenix
    1篇
  • Ntp
    1篇
  • kafka
    3篇
  • python
  • Scala
    1篇
  • DataFrame
    1篇
  • azkaban
    1篇
  • hdfs
    1篇
  • elasticsearch
    1篇
  • nginx
    1篇
  • Flume
    2篇
  • MongoDB
    2篇
  • Flink
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

row_num引起的数据差异

以card_no分组operate_time倒序排序,会发现最新的两条记录 operate_time相同,status不同【那么不同时间跑有可能这次排序号1的是状态等于1的,下次跑是状态等于-1的】,最终会取状态等于1的且rn等于1的数据。最后然后发现每个ID会有一个update_time,而且最新时间两条不同状态的数据update_time不相同,那么在row_num中将operate_time 修改成update_time更加符合具体业务逻辑,得到的数据也更加准确。拿具体差异的id查看数据。
原创
发布博客 2023.06.27 ·
234 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Streaming黑名单过滤(transform算子的使用)

原始数据:20180808,zs20180808,ls20180808,ww黑名单列表:zsls思路:1、原始日志可以通过Streaming直接读取成一个DStream2、名单通过RDD来模拟一份逻辑实现:1、将DStream转成(黑名单只有名字)(zs,(20180808,zs))(ls,(20180808,ls))(ww,( 20180808,ww))2、然后将...
原创
发布博客 2019.01.10 ·
770 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

UpdateStateByKey算子

具体用法参考官网UpdateStateByKey OperationupdateStateByKey操作允许您在使用新信息不断更新时保持任意状态。 要使用它,您必须执行两个步骤。定义状态 - 这个状态可以是任意的数据类型定义状态update函数 - 用这个函数指定如何使用先前状态和新输入流里的新值更新状态对于有状态操作,要不断的把当前和历史的时间切片的RDD累加计算,随着时间的流失,计算...
原创
发布博客 2019.01.10 ·
782 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

SparkSQL groupBy的使用

数据格式(消费者ID 消费时间 消费金额)1 12:01 1001 12:02 2001 12:50 1002 12:50 1003 13:01 200需求:统计每个小时,每个用户的消费总额思路步骤:1、id加上时间的小时部分(前两位)作为key2、使用sparkSQl里面的 groupby.agg()方法 groupby(“id”,“time”).agg(sum(“cous...
原创
发布博客 2019.01.08 ·
9352 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

Flink MongoDBSink

MongoUtilspackage com.soul.utils;import com.mongodb.MongoClient;import com.mongodb.MongoCredential;import com.mongodb.ServerAddress;import java.util.ArrayList;import java.util.List;/** * @a...
原创
发布博客 2018.12.24 ·
3773 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

Spark迁移Hive数据到MongoDB(UpdateSave|UpsertSave)

Hive emp表数据hive (soul)> select * from emp;OKemp.empno emp.ename emp.job emp.age emp.deptno7369 SMITH CLERK 24 107499 ALLEN SALESMAN 30 207521 WARD SALESMAN 25 307654 MARTIN SALESMAN 23 1076...
原创
发布博客 2018.12.20 ·
1875 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

Flink清洗Kafka数据存入MySQL测试

版本信息:Flink Version:1.6.2Kafka Version:0.9.0.0MySQL Version:5.6.21Kafka 消息样例及格式:1.74.103.143 2018-12-20 18:12:00 "GET /class/130.html HTTP/1.1" 404 https://search.yahoo.com/search?p=Flink实战s...
原创
发布博客 2018.12.20 ·
4102 阅读 ·
0 点赞 ·
4 评论 ·
9 收藏

MongoDB的安装及简单使用

本文讲述的是在Mac上如何安装,如果与本文环境不同可以百度自行安装(MongoDB支持Windows、Linux、OS)。一、安装&启动进入 /usr/localcd /usr/local下载sudo curl -O https://fastdl.mongodb.org/osx/mongodb-osx-x86_64-3.4.2.tgz解压sudo tar -zxvf mo...
原创
发布博客 2018.12.18 ·
373 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MongoDB的安装及简单使用

本文讲述的是在Mac上如何安装,如果与本文环境不同可以百度自行安装(MongoDB支持Windows、Linux、OS)。一、安装&启动进入 /usr/localcd /usr/local下载sudo curl -O https://fastdl.mongodb.org/osx/mongodb-osx-x86_64-3.4.2.tgz解压sudo tar -zxvf mo...
原创
发布博客 2018.12.18 ·
373 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Mac 安装Hadoop-2.6.0-cdh5.7.0伪分布式

下载Hadoop-2.6.0-cdh5.7.0 单机下载自己需要的版本,我下载的是hadoop-2.6.0-cdh5.7.0一. 解压tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C xxxxxxxx(自己想放的路径)二 . 配置进入etc/hadoopcore-site.xml<?xml version="1.0" encoding=...
原创
发布博客 2018.09.24 ·
1040 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

JAR_PARM

JAR_PARM=find ./lib -name *.jar | grep jar | xargs | sed's //,/g'
原创
发布博客 2018.06.14 ·
299 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive配置显示当前数据库及表字段

hive-site.xml添加以下参数:<property> <name>hive.cli.print.current.db</name> <value>true</value></property><property> <name>hive.cl
原创
发布博客 2018.06.08 ·
1921 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

从输入的SQL参数中获取表名及字段名

工具类package com.isoft.mongo;/* * @Author: Create by Achun *@Time: 2018/6/3 23:20 * */import java.util.ArrayList;import java.util.List;public class SQLUtils { public List<String> g...
原创
发布博客 2018.06.03 ·
2526 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Spark读取mongoDB数据写入Hive普通表和分区表

版本: spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4一 原始数据及Hive表 MongoDB数据格式{ "_id" : ObjectId("5af65d86222b639e0c2212f3"), &amp
原创
发布博客 2018.06.03 ·
1718 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Spark RDD、DataFrame和DataSet的区别

在spark中,RDD、DataFrame、Dataset是最常用的数据类型,今天谈谈他们的区别!一 、共性 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算。3、三者都会根据spark的内...
原创
发布博客 2018.05.18 ·
726 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark History Server Web UI配置

1.进入spark目录和配置文件[root@hadoop01 ~]# cd /opt/app/spark/conf[root@hadoop01 conf]# cp spark-defaults.conf.template spark-defaults.conf2.创建spark-history的存储日志路径为hdfs上(当然也可以在linux文件系统上)[root@hadoo...
原创
发布博客 2018.03.12 ·
1631 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

kafka eagle安装与使用

一、概述 在开发工作当中,在使用 Kafka 集群进行消息的生产和消费时,数据的变动以及topic的管理是我们所关心的内容,这就要求一套行之有效的监控管理体系。常见的kafka监控软件有4种如下所示Kafka Web Conslole :监控功能较为全面,可以预览消息,监控Offset、Lag等信息,但存在bug,不建议在生产环境中使用。Kafka Manager:偏向Kafka集群...
转载
发布博客 2018.03.12 ·
2746 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Caused by: java.lang.NoSuchMethodError: com.fasterxml.jackson.core.JsonFactory.requiresPropertyOrder

maven中添加 dependency> groupId>com.fasterxml.jackson.coregroupId> artifactId>jackson-coreartifactId> version>2.2.4version> dependency> dependency>
原创
发布博客 2018.01.31 ·
4092 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

DN日志--Flume--Kafka

一、Flume收集的DN日志作为Kafka的生产数据,exec-memory-kafka.conf如下a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = com.onlinelog.analysis.ExecSource_JSONa1.sources.r1.command = tail -F /var/lo
原创
发布博客 2018.01.18 ·
374 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DN日志--Flume--HDFS

Flume收集DataNode日志到HDFS之上 一、查看DN日志内容(已经将日志格式改造成了JSON),具体改造方法参考DN日志改造输出为JSON{"time":"2018-01-16 12:07:10,846","logtype":"INFO","loginfo":"org.apache.hadoop.hdfs.server.datanode.DataNode:PacketRespond
原创
发布博客 2018.01.16 ·
545 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多