自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (9)
  • 收藏
  • 关注

原创 DataX的过滤器可行性实践

1. 需求说明​ 生产环境中有些数据需要在抽取的时候指定对某个字段进行过滤,判断等等。以将本地文件抽取到HDFS为例,当前我们需要导入的数据有2条,如下:​ 上面的数据中有uname字段,我们希望增加一个新的字段sex,该字段的值判断如果uname是wangwu,则sex字段的值就为female,否则为male,效果如下:实现上面的效果需要2步:编写过滤器代码。将过滤器代码写到datax.json中。2. 编写过滤器代码导入datax的依赖(这里主要是因为要写日志,另一个是打包功能

2020-10-15 11:26:30 1791

原创 记一次线上DataX的HA访问配置

1. 修改配置采集的配置文件添加如下,我这里用的HDFSWritter。“defaultFS”: “hdfs://KaTeX parse error: Expected '}', got 'EOF' at end of input: …ameservices": "{nameservice命名空间}”,“dfs.ha.namenodes.nameservice命名空间":"{nameservice命名空间}": "nameservice命名空间":"{namenode1的逻辑名称},namenode2

2020-10-14 13:53:55 956

原创 Java NIO

Buffer一个容器,用来存储需要传递的数据。 常见分类如下:Buffer创建Buffer分为两种,直接缓冲区与非直接缓冲区:非直接缓冲区:通过 allocate() 方法分配缓冲区,将缓冲区建立在 JVM 的内存中直接缓冲区:通过 allocateDirect() 方法分配直接缓冲区,将缓冲区建立在物理内存中。可以提高效率Buffer的使用三个常用的属性:属性说明容量(Capacity)缓冲区能够容纳的数据元素的最大数量,缓冲区创建时被设定,永远不能被改变

2020-10-11 20:03:48 156 1

原创 SparkStreaming——基于Kafka消费到HBase的顺序问题

线上设置的Kafka默认配置是3个Partition,设我们传递的数据是用户的信息如下用户id用户名具体信息动作001zhangsan…插入001zhangsan…修改001zhangsan…删除002lisi…插入生产者分别向不同的主Partition发送数据,消费者每5秒去消费数据,因为Kafka是全局无序且局部数据有序,所以可能会出现的结果是这样的:按照业务来说第001条数据是被删除的,但是入湖同步后数据是修改后的数据,另外

2020-07-25 23:48:37 451

百度地图的项目示例代码

百度地图的项目示例代码

2015-12-30

JAVA COLLECTION PDF

JAVA COLLECTION PDF

2014-10-15

JAVA COLLECTION

Apress的书。介绍Java Collections API的书籍。学习Java数据结构的好书!!!

2014-10-15

JAVA 线程 ad

java线程高级练习.

2014-09-30

JavaIO大部分类

java7 大部分类的应用

2014-09-23

反射最基本代码

java reflection

2014-09-19

多个Activity管理的例子

多个Activity管理的例子

2014-08-16

仿QQ框架修改

FragmentProject仿QQ 再次优化

2014-08-04

javadoc打包

javadoc打包文档

2014-03-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除