屡傻不改
码龄5年
关注
提问 私信
  • 博客:123,905
    123,905
    总访问量
  • 169
    原创
  • 585,176
    排名
  • 42
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2020-07-04
博客简介:

qianchun22的博客

查看详细资料
个人成就
  • 获得239次点赞
  • 内容获得23次评论
  • 获得225次收藏
  • 代码片获得154次分享
创作历程
  • 13篇
    2021年
  • 156篇
    2020年
成就勋章
TA的专栏
  • Python
    1篇
  • 课堂检测
    3篇
  • Flink
    5篇
  • Hive
    16篇
  • Flume
    5篇
  • Spark
    38篇
  • Kafka
    9篇
  • Linux
    7篇
  • Spark Streaming
    5篇
  • HBase
    7篇
  • Hadoop
    13篇
  • NoSQL
    1篇
  • Java基础
    30篇
  • Scala
    14篇
  • 数据仓库
    1篇
  • Sqoop
    2篇
  • ZooKeeper
    2篇
  • ELK
    2篇
  • MySQL
    8篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Python 开发环境搭建

一、在 Windows 上安装 Anaconda在官网上下载 Anaconda 的安装文件Anaconda3-5.1.0-Windows-x86_64.exe如果操作系统是 Win10 系统,请右键点击安装文件,选择以“管理员身份运行”(之前出现过在 Win10 上,未使用管理员权限安装导致后面 Scrapy 爬虫安装失败的情况)Win10 以管理员身份运行安装步骤一:安装步骤二:安装步骤三:安装步骤四:安装步骤五:将两个复选框都选上。安装步骤六 :点击 Skip,不安装 V
原创
发布博客 2021.01.25 ·
288 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

2021-01-19课堂检测三

一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户 ID、商品 ID、商品类目 ID、行为类
原创
发布博客 2021.01.22 ·
475 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

2021-01-18课堂检测二

一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU(Standard Product Unit ,标准产品单元)数据,包含了外卖平台某地区一时间的外卖信息。具体字段说明如下:四、功能要求1.数据准备(10 分)请在 HDFS 中创建目录/app/dat
原创
发布博客 2021.01.18 ·
465 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Flink】(五)Flink ProcessFunction API

Flink ProcessFunction分层APIFlink提供三层API. 每个API在简洁性和表达之间提供不同的权衡,并针对不同的用例1、SQL/Table API (dynamic tables)2、DataStream API(streams, windows)3.ProcessFunction(event,state,time)ProcessFunction不要跟ProcessWindowFunction混为一谈。ProcessFunction是一个低阶的流处理
原创
发布博客 2021.01.18 ·
493 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

【Flink】(四)Flink事件时间处理和水印

Flink事件时间处理和水印1、Flink 中的时间语义在 Flink 的流式处理中,会涉及到时间的不同概念,如下图所示Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。Ingestion Time:是数据进入 Flink 的时间。Processing Time:是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是 Processing Tim
原创
发布博客 2021.01.18 ·
1380 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

2021-01-14课堂测试一

一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目难度系数,题目所属的知识点 ID,做题的学生 ID,题目 ID 以及作答批改结果。日志的结构如下:四、功能要求1.数据准备(10 分)请在 HDFS 中
原创
发布博客 2021.01.17 ·
216 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive笔记之collect_list/collect_set(列转行)

collect_list和collect_set它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录:create table t_visit_video ( username string, video_name string) partitioned by (day string)row format delimited fields terminated
原创
发布博客 2021.01.15 ·
437 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

VMware CentOS7增加磁盘容量、内存容量、处理器数量

参考链接:https://blog.csdn.net/dsjia2970727/article/details/109389860https://blog.csdn.net/Zhuuu_ZZ/article/details/112342211
原创
发布博客 2021.01.13 ·
2683 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

【Flink】(三)Flink Window 窗口机制

Flink Window 窗口机制一、总览Window 是flink处理无限流的核心,Windows将流拆分为有限大小的“桶”,我们可以在其上应用计算。Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制。在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理
原创
发布博客 2021.01.07 ·
215 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Flink】(二)Flink入门(详细教程)

Flink入门(详细教程)和其他所有的计算框架一样,flink也有一些基础的开发步骤以及基础,核心的API,从开发步骤的角度来讲,主要分为四大部分导入flink相关依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2</version><
原创
发布博客 2021.01.05 ·
602 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

【Flink】(一)深入理解Flink核心技术及原理

一、Flink简介Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务:1、DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。2、DataStream API,对数据流进行流处理操作,将流式的数据抽象成分布式的数据流,用户
原创
发布博客 2021.01.05 ·
1171 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

【Spark】(五)Spark Streaming 之 DStream 转换与输出

一、DStream 转换DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。1、无状态转化操作无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上,也就是转化 DStream 中的每一个 RDD。部分无状态转化操作列在了下表中。注意,针对键值对的 DStream 转化操作
原创
发布博客 2021.01.04 ·
842 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

【Spark】(四)Spark Streaming 结合 SparkSql 实例

导入 spark-sql 的依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version></dependency>代码示例package cn.kgc.kb09.Sparkimport org.apache.kafka.c
原创
发布博客 2021.01.04 ·
283 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Spark】(三)Spark Streaming 中的 Window操作

Spark Streaming中的Window操作窗口函数,就是在DStream流上,以一个可配置的长度为窗口,以一个可配置的速率向前移动窗口,根据窗口函数的具体内容,分别对当前窗口中的这一波数据采取某个对应的操作算子。需要注意的是窗口长度,和窗口移动速率需要是batch time的整数倍。**spark streaming 中有三个关于时间的参数,分别如下:**窗口时间windowDuration:当前窗口要统计多长时间的数据,是批量时间的整数倍滑动时间slideDuration:要
原创
发布博客 2020.12.29 ·
298 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

【Spark Streaming】(二)Spark Streaming - 实时数据采集

案例一:WordCount(scala版本)从本机的7777端口源源不断地收到以换行符分隔的文本数据流,并计算单词个数package cn.kgc.kb09.Sparkimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamobject Sp
原创
发布博客 2020.12.28 ·
1048 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

【Spark Streaming】(一)Spark Streaming 简单入门

一、概述SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,数据库等,方便实时展现。一个简单的示例下面以一个简单的例子开始spark streaming的学习之旅!我们会从本机的7777端口源源不断
原创
发布博客 2020.12.22 ·
645 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

【Kafka】(九)Kafka Stream API 实现 二

案例一:利用Kafka流实现对输入数字的求和一、Kafka Java代码public class SumStream { public static void main(String[] args) { Properties prop = new Properties(); prop.put(StreamsConfig.APPLICATION_ID_CONFIG,"sumstream"); prop.put(StreamsConfig.BOOTST
原创
发布博客 2020.12.21 ·
297 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

【Kafka】(八)Kafka Stream API 实现 一

案例一:简单的Kafka Stream API一、Kafka Java代码创建maven过程,导入以下依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</version></dependency><dependency> &
原创
发布博客 2020.12.21 ·
310 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【Kafka】(七)Kafka Stream 详解

一、Kafka Stream 背景1、Kafka Stream 简介提供了对存储于Kafka内的树进行流式处理和分析的功能Kafka Stream的特点:Kafka Stream提供了一个非常简单而轻量的Library,它可以非常方便地嵌入任意Java应用中,也可以任意方式打包和部署除了Kafka外,无任何外部依赖充分利用Kafka分区机制实现水平扩展和顺序性保证通过可容错的state store实现高效的状态操作(如windowed join和aggregation)支
原创
发布博客 2020.12.21 ·
4276 阅读 ·
6 点赞 ·
2 评论 ·
16 收藏

Phoenix 启动报错: Error: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate

Phoenix 启动报错:Error: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled (state=43M10,code=726)解决方法如下:1、删除hbase和phoe
原创
发布博客 2020.12.18 ·
1451 阅读 ·
4 点赞 ·
2 评论 ·
3 收藏
加载更多