- 博客(4)
- 资源 (9)
- 收藏
- 关注
原创 DataX的过滤器可行性实践
1. 需求说明 生产环境中有些数据需要在抽取的时候指定对某个字段进行过滤,判断等等。以将本地文件抽取到HDFS为例,当前我们需要导入的数据有2条,如下: 上面的数据中有uname字段,我们希望增加一个新的字段sex,该字段的值判断如果uname是wangwu,则sex字段的值就为female,否则为male,效果如下:实现上面的效果需要2步:编写过滤器代码。将过滤器代码写到datax.json中。2. 编写过滤器代码导入datax的依赖(这里主要是因为要写日志,另一个是打包功能
2020-10-15 11:26:30 1791
原创 记一次线上DataX的HA访问配置
1. 修改配置采集的配置文件添加如下,我这里用的HDFSWritter。“defaultFS”: “hdfs://KaTeX parse error: Expected '}', got 'EOF' at end of input: …ameservices": "{nameservice命名空间}”,“dfs.ha.namenodes.nameservice命名空间":"{nameservice命名空间}": "nameservice命名空间":"{namenode1的逻辑名称},namenode2
2020-10-14 13:53:55 956
原创 Java NIO
Buffer一个容器,用来存储需要传递的数据。 常见分类如下:Buffer创建Buffer分为两种,直接缓冲区与非直接缓冲区:非直接缓冲区:通过 allocate() 方法分配缓冲区,将缓冲区建立在 JVM 的内存中直接缓冲区:通过 allocateDirect() 方法分配直接缓冲区,将缓冲区建立在物理内存中。可以提高效率Buffer的使用三个常用的属性:属性说明容量(Capacity)缓冲区能够容纳的数据元素的最大数量,缓冲区创建时被设定,永远不能被改变
2020-10-11 20:03:48 156 1
原创 SparkStreaming——基于Kafka消费到HBase的顺序问题
线上设置的Kafka默认配置是3个Partition,设我们传递的数据是用户的信息如下用户id用户名具体信息动作001zhangsan…插入001zhangsan…修改001zhangsan…删除002lisi…插入生产者分别向不同的主Partition发送数据,消费者每5秒去消费数据,因为Kafka是全局无序且局部数据有序,所以可能会出现的结果是这样的:按照业务来说第001条数据是被删除的,但是入湖同步后数据是修改后的数据,另外
2020-07-25 23:48:37 451
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人