张行之
码龄9年
关注
提问 私信
  • 博客:2,024,686
    社区:5,113
    问答:456
    2,030,255
    总访问量
  • 340
    原创
  • 1,537,027
    排名
  • 578
    粉丝
  • 2
    铁粉

个人简介:闻道有先后,术业有专攻。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2016-01-09
博客简介:

Widsom的博客

博客描述:
人的原动力来自对未来的美好憧憬
查看详细资料
个人成就
  • 获得719次点赞
  • 内容获得232次评论
  • 获得2,735次收藏
  • 代码片获得4,944次分享
创作历程
  • 4篇
    2020年
  • 40篇
    2019年
  • 65篇
    2018年
  • 101篇
    2017年
  • 139篇
    2016年
成就勋章
TA的专栏
  • Scrapy学习
    8篇
  • 设计模式
    23篇
  • 图解HTTP读书笔记
    10篇
  • 大数据
    84篇
  • Python
    37篇
  • JavaEE
    26篇
  • java并发编程
    9篇
  • 数据库
    6篇
  • 设计模式
    23篇
  • Linux
    13篇
  • android提升
    101篇
  • android基础
    3篇
  • android studio
    14篇
  • git学习
    7篇
  • java
    12篇
  • 常用工具
    1篇
  • 图解HTTP读书笔记
    10篇
兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    机器学习tensorflow
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive表命名规范

Hive表命名规范一、命名规则业务产品_层名_计算周期&&统计周期_表类型_存储类型_表的业务含义举个例子:1.浏览器业务产品的 每天计算的 hive 搜索事件的 事实表 明细数据 browser_dwd_dd_face_hive_search2.浏览器业务产品 每天全量 城市 hive维表 browser_dim_da_dic_hive_city3.浏览器业务产品 每天 搜索网站 次数统计 排名 browser_al_dd_rpt_hive_search_web_ran
原创
发布博客 2020.09.30 ·
5395 阅读 ·
0 点赞 ·
0 评论 ·
10 收藏

Hive之MapReduce性能优化

Hive优化一、Hive任务创建文件数优化1.1 Map端文件合并减少Map任务数量一般来说,HDFS的默认文件块大小是128M,如果在Hive执行任务时,发现Map端的任务过多,且执行时间多数不超过一分钟,建议通过参数,划分(split)文件的大小,合并小文件。如:set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapreduce.input.fileinputformat.split.m
原创
发布博客 2020.09.20 ·
3854 阅读 ·
2 点赞 ·
0 评论 ·
19 收藏

Hive添加列、修改列(调整位置)、删除列操作等

1.添加1列或多列# 添加1列alter table table_name add columns( user_id bigint comment '用户ID');# 添加多列alter table table_name add columns( name string comment '用户名称', city string comment '城市', sex string comment '用户性别', age s
原创
发布博客 2020.09.11 ·
24468 阅读 ·
6 点赞 ·
2 评论 ·
50 收藏

Hive Archive合并文件归档,减少小文件数量(推荐)

我们在使用Hive存储时,有时会遇到Hive表的文件大小不大,但是文件数量众多;这是可能会遇到HDFS的储存空间没到阈值,但文件数量超过阈值。如果小文件太多,容易影响整个集群的性能。那么对于小文件多的问题,有以下处理方法:1.输出时减少reduce的数量;但可能会导致job运行变慢2.使用Spark重新读取小文件,修改分区并写入,这里不建议使用repartition(),推荐使用coalesce()repartition()会增加文件的大小,因为要历经shuffle阶段,但coalesce()不会经
原创
发布博客 2020.09.10 ·
1488 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

ElasticSearch Java High RESTful Api Basic认证的问题

ElasticSearch Java High RESTful Api Basic认证的问题因公司Elasticsearch集群升级到7.1.1,需要使用用户名密码登入。并且设置的user、role等权限。那么之前直接访问的方式是不行的。需要使用认证的方式进行访问。Elasticsearch的api非常的丰富。如:curl、python、java(多种)。下面展示curl、Python、Jav...
原创
发布博客 2019.10.31 ·
6744 阅读 ·
8 点赞 ·
2 评论 ·
7 收藏

Flink Table 将Stream追加写入Elasticsearch

Flink Table 将Stream追加写入ElasticsearchFlink Table提供了多种方式,写入ElasticSearch。一种是Connector的方式连接ElasticSearch,另一种是通过Sink的方式。下面分别介绍2种方式。一、Connector的方式写入Elasticsearchpublic class SqlSinkElasticSearchStream {...
原创
发布博客 2019.10.31 ·
2407 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Flink Table 将Stream直接写入MySQL数据库

Flink Table 将Stream直接写入MySQL数据库Flink Table提供了一个JDBCAppendTableSink,可以直接往可靠地数据库中Sink数据,下面以MySQL为例:添加Maven的pom.xml依赖<dependency> <groupId>org.apache.flink</groupId> <arti...
原创
发布博客 2019.10.31 ·
5399 阅读 ·
4 点赞 ·
2 评论 ·
10 收藏

Flink Table 将kafka流数据追加到Csv格式文件

Flink Table 将kafka流数据追加到Csv格式文件Flink Table可以很好的将Stream数据直接写入到文件系统。示例如下:代码示例public class SqlSinkFileSystemStream { public static void main(String[] args) throws Exception { StreamExecuti...
原创
发布博客 2019.10.31 ·
3508 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Flink Table 基于Processing Time、Event Time的多种Window实现

Flink Table 基于Processing Time、Event Time的多种Window实现Flink 提供了Table Api,用来统一批流入口,使用Flink Table Api,直接处理流,会特别的简洁,易用。下面来看下使用Flink Table Api实现 Tumble Window(翻滚窗口)、Slide Window(滑动窗口)、Session Window(会话)。一...
原创
发布博客 2019.10.31 ·
3540 阅读 ·
1 点赞 ·
2 评论 ·
6 收藏

Flink Stream日志写入Kafka集群

Flink Stream日志写入Kafka集群Flink Stream的输出日志,直接输出的Kafka集群,进行持久化。一、log4j.properties文件配置log4j.rootLogger=INFO,file,kafkalog4j.logger.org.apache.kafka=INFO#############################################...
原创
发布博客 2019.10.31 ·
1396 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink DataStream之Kafka数据写入HDFS,并分区到Hive

Flink DataStream之Kafka数据写入HDFS,并分区到Hive因业务要求,我们需要从Kafka中读取数据,变换后最终Sink到业务的消息队列中,为保证数据的可靠性,我们同时对Sink的结果数据,进行保存。最终选择将流数据Sink到HDFS上,在Flink中,同时也提供了HDFS Connector。下面就介绍如何将流式数据写入HDFS,同时将数据load到Hive表中。一、po...
原创
发布博客 2019.10.31 ·
9032 阅读 ·
3 点赞 ·
2 评论 ·
28 收藏

Flink DataStream Async I/O(异步IO)

Flink DataStream Async I/O(异步IO)当我们在Operator算子中,需要与外部系统交互时(例如:查询数据库),如果我们使用同步的方式,那么容易造成该Operator计算延迟,吞吐量低。所以Flink 提供了Async I/O机制,可以通过异步操作,处理查询数据库等类似耗时的操作。与数据库的异步交互意味着单个并行函数实例可以同时处理许多请求并同时接收响应。这样,等待时...
原创
发布博客 2019.10.31 ·
2134 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

Flink DataStream KeyedProcessFunction实现类似Session Window功能

Flink DataStream KeyedProcessFunction实现类似Session Window功能一、KeyedProcessFunction功能介绍KeyProcessFunction是一个低级的Stream处理操作(Operator),可以更加灵活的处理Stream的业务逻辑,它可以访问所有流应用程序的基本构建块:事件(Event)状态(State,仅支持KeyedS...
原创
发布博客 2019.10.31 ·
2675 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Flink Checkpoint(检查点)

Flink Checkpoint(检查点)Flink中的每个函数和运算符都可以是有状态的(如果是Keyed Stream,使用ValueState、ListState等状态,如果是Operator State,实现CheckpointedFunction或CheckpointedList接口。使用ListState、MapState获取状态)。有状态的函数在各个元素/事件处理中存储数据。使状态成...
原创
发布博客 2019.10.31 ·
2832 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

Flink DataStream 广播状态模式

Flink DataStream 广播状态模式我们使用State描述了Operator State,在恢复时,可以修改并行度重新分配Operator State(偶分裂再分配方式),或者使用Union的方式(联合重新分发)恢复并行任务。Operator State还有一种广播状态模式(Broadcast State)。引入广播状态是为了支持这样的用例,其中来自一个流的一些数据需要被广播到所有...
原创
发布博客 2019.10.31 ·
2262 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

Flink DataStream Manager(托管) Operator State的简单使用

Flink DataStream Manager(托管) Operator State的简单使用要使用Manager(托管) Operator State,需要实现CheckpointedFunction接口或者ListCheckpointed<T extends Serializable>接口。一、CheckpointFunctionCheckpointedFunction接口...
原创
发布博客 2019.07.02 ·
1819 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Flink DataStream Manager(托管) Keyed State的简单使用

Flink DataStream Manager(托管) Keyed State的简单使用Manager(托管)Keyed State接口提供对不同类型状态的访问,这些状态都限定为当前输入元素的键。这意味着这种类型的状态只能用于一个 KeyedStream,可以通过创建stream.keyBy(…)返回KeyedStream对象。这个可用的State有:ValueState<T&g...
原创
发布博客 2019.07.02 ·
1098 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink DataStream State(状态)

Flink DataStream State(状态)一、State(状态)的种类State有2类:Keyed State和Operator State。Keyed State:与keys相关的状态,仅仅用于Keyed Stream的Operator(算子)的Function。Operator State: Non-Keyed State,每个operator state都绑定到一个...
原创
发布博客 2019.07.01 ·
3327 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

Flink DataStream State Backend(状态后端)

Flink DataStream State Backend(状态后端)State Backend(状态后端)用Data Stream Api 编写的程序经常是需要保存状态的,如下面情况:Windows中聚集的元素直到被触发计算。在触发之前,需要保存Windows中的元素的状态。转换(Transformation)函数可以使用Key/Value状态接口存储状态值转换(Transform...
原创
发布博客 2019.07.01 ·
3100 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

Flink DataStream Evictors(驱逐器)

Flink DataStream Evictors(驱逐器)Flink 窗口模式允许特别的算子Evictor(驱逐器),应用在WindowAssigner和trigger之间。通过evictor()方法使用。Evictor驱逐器能够在element进入Window窗口聚合之前进行移除数据或者在进入Window窗口聚合后,Trigger触发计算操作之前移除数据。Evictor的2个方法:...
原创
发布博客 2019.06.28 ·
1588 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏
加载更多