大数据
文章平均质量分 88
分享大数据技术。
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
大数据技术派
待我代码写成,便娶你为妻。
展开
-
Flink SQL管理平台flink-streaming-platform-web安装搭建
文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问。最近看到有人在用flink sql的页面管理平台,大致看了下,尝试安装使用,比原生的flink sql界面确实好用多了,我们看下原生的,通过bin/sql-client.sh命令进入那个黑框,一只松鼠,对,就是那个界面。。。。这个工具不是Flink官方出的,是一个国内的小伙伴写的,Github地址:是不是觉得很强大,很多同学已经摩拳擦掌想试试了。原创 2022-12-02 09:51:18 · 835 阅读 · 0 评论 -
Flink同步Kafka数据到ClickHouse分布式表
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。列式数据库更适合于OLAP场景(对于大多数查询而言,处理速度至少提高了100倍),下面详细解释了原因(通过图片更有利于直观理解),图片来源于ClickHouse中文官方文档。行式列式我们使用Flink编写程序,消费kafka里面的主题数据,清洗、归一,写入到clickhouse里面去。原创 2022-12-01 09:42:23 · 495 阅读 · 1 评论 -
Spark—GraphX编程指南
Spark系列面试题Spark面试题(一)Spark面试题(二)Spark面试题(三)Spark面试题(四)Spark面试题(五)——数据倾斜调优Spark面试题(六)——Spark资源调优Spark面试题(七)——Spark程序开发调优Spark面试题(八)——Spark的Shuffle配置调优GraphX 是新的图形和图像并行计算的Spark API。从整理上看,GraphX 通过引入 弹性分布式属性图(Resilient Distributed Property Graph)继承原创 2022-03-26 15:56:40 · 255 阅读 · 0 评论 -
大数据学习路线
关注公众号:大数据技术派,回复“资料”,领取1000G资料。本文首发于我的个人博客:大数据学习路线前言要从事计算机行业的工作,不管是什么工作,开发、测试、还是算法等,都是要有一门自己比较熟练的编程语言,编程语言可以是C语言、Java、C++等,只要是和你后续工作所相关的就可以(后续用到其他语言的话,你有一门语言基础了,学起来就快了)。一般初学者入门语言大多都会选择Java、C语言、C++或者Python,而且现在网上有很多好的视频,可以供初学者学习使用。关于学习视频或者资料的选择,知乎或者百度等.原创 2021-11-25 22:02:57 · 746 阅读 · 0 评论 -
Hadoop面试题总结(三)——MapReduce
1、谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?1)序列化和反序列化(1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。(2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。(3)Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己开发了一套序列原创 2021-10-16 13:45:02 · 342 阅读 · 0 评论 -
Hadoop面试题总结(二)——HDFS
1、 HDFS 中的 block 默认保存几份?默认保存3份2、HDFS 默认 BlockSize 是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中原创 2021-10-13 12:56:51 · 540 阅读 · 0 评论 -
彻底解决Hive小文件问题
最近发现离线任务对一个增量Hive表的查询越来越慢,这引起了我的注意,我在cmd窗口手动执行count操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s,这显然是有问题的,我推测可能是有小文件。我去hdfs目录查看了一下该目录:发现确实有很多小文件,有480个小文件,我觉得我找到了问题所在,那么合并一下小文件吧:insert into test select * from table distribute by floor (rand()*5);这里使用distribute by进原创 2021-09-20 13:56:57 · 1411 阅读 · 0 评论 -
学习建议,大数据组件那么多,可以重点学习这几个
经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。hadoopHbaseHiveSparkFlinkKafkaHadoop是大数据的基础组件,很多组件都需要依赖它的分布式存储、计算;主要包括Hdfs、MR、Yarn三部分,这个需要找一些好的资料(我的主页有资料领取方法),好好学学各自的用法,熟练之后,需要了解其背后的原理。基本的,你原创 2021-05-25 21:58:09 · 506 阅读 · 0 评论 -
Flink实时计算topN热榜
TopN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。1. 用到的知识点Flink创建kafka数据源;基于 EventTime 处理,如何指定 Watermark;Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口;State状态的使用;ProcessFunction 实现 TopN 功能;2. 案例介绍通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。创建kafka生产者,发送测试数据到kafka;消费kafka数据,原创 2021-03-18 23:36:44 · 1811 阅读 · 1 评论 -
cdh中yarn调度spark,container资源倾斜,container集中于一台或几台机器
在cdh 6.0.1版本中,提交spark任务,发现yarn分配的container集中于几台节点,其它节点没有分配。这显然会导致个别机器负载过高,从而影响集群整个性能。原因yarn.scheduler.fair.assignmultiple: Whether to allow multiple container assignments in one heartbeat. Defaults to false.这个配置项决定了是否在一次心跳分配请求中分配多个containe,在CDH中默认为true,原创 2020-12-22 21:47:55 · 867 阅读 · 1 评论 -
Hive表的基本操作
文章目录1. 创建表2. 拷贝表3. 查看表结构4. 删除表5. 修改表5.1 表重命名5.2 增、修、删分区5.3 修改列信息5.4 增加列5.5 删除列5.6 修改表的属性1. 创建表create table语句遵从sql语法习惯,只不过Hive的语法更灵活。例如,可以定义表的数据文件存储位置,使用的存储格式等。create table if not exists test.user1(name string comment 'name',salary float comment 'salar原创 2020-12-21 18:46:12 · 1151 阅读 · 0 评论 -
通过HiveServer2访问Hive
先解释一下几个名词:metadata :hive元数据,即hive定义的表名,字段名,类型,分区,用户这些数据。一般存储关系型书库mysql中,在测试阶段也可以用hive内置Derby数据库。metastore :hivestore服务端。主要提供将DDL,DML等语句转换为MapReduce,提交到hdfs中。hiveserver2:hive服务端。提供hive服务。客户端可以通过beeline,jdbc(即用java代码链接)等多种方式链接到hive。beeline:hive客户端链接到hiv原创 2020-12-19 13:43:54 · 590 阅读 · 1 评论 -
Hive 分析函数lead、lag实例应用
Lag和Lead分析函数可以在同一次查询中取出同一字段的后N行的数据(Lag)和前N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示当前查询的结果集对象,括号里面的语句则表示对这个结果集进行处理。1 LEAD与LAG相反,LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)## 场景用户原创 2020-12-18 10:28:37 · 555 阅读 · 0 评论 -
Python批量删除mysql中千万级大量数据
## 场景描述线上mysql数据库里面有张表保存有每天的统计结果,每天有1千多万条,这是我们意想不到的,统计结果咋有这么多。运维找过来,磁盘占了200G,最后问了运营,可以只保留最近3天的,前面的数据,只能删了。删,怎么删?因为这是线上数据库,里面存放有很多其它数据表,如果直接删除这张表的数据,肯定不行,可能会对其它表有影响。尝试每次只删除一天的数据,还是卡顿的厉害,没办法,写个Python脚...原创 2019-09-03 20:18:35 · 2769 阅读 · 0 评论 -
使用scala编写flink消费kafka实时计算pv,uv
实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用flink实时计算pv,uv。我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求.每秒钟要输出最新的统计结果程序永远跑着不会停,所以要定期清理内存里的过时数据收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制访问uv并不一定每秒钟都会变...原创 2019-03-21 22:16:37 · 9921 阅读 · 7 评论 -
kafka消息顺序与重复
kafka消息顺序我们知道,kafka是一个高性能、分布式容错的消息发布-订阅系统,现在kafka也能处理流数据了。多个生产者在往kafka发送数据的时候,消息的顺序是不能保障的,也就是无序的。有些场景,比如在用maxwell解析mysql的binlog日志的时候,发送到kafka,后面解析,通常会用jdbc的方式,将数据保存到其它系统,比如hive或者hbase等。这时候,消息的顺序是很...翻译 2019-03-12 21:57:59 · 6821 阅读 · 0 评论 -
Flink的重启策略 Restart Strategies
目录概览重启策略固定间隔 (Fixed Delay) 重启策略失败率 (Failure Rate) 重启策略无重启 (No Restart) 策略回调 (Fallback) 重启策略Flink 支持多种不同的重启策略,这些策略控制了在失败情况下工作要如何重启。 集群在启动时会伴随一个默认的重启策略,在没有定义具体工作重启策略时会使用该默认策略。 如果在工作提交时制定一个...转载 2019-01-22 21:40:54 · 3288 阅读 · 0 评论 -
Flink的Checkpointing机制
目录先决条件启用和配置检查点选择状态的后端存储(State Backend)迭代式作业中的状态检查点(State Checkpoints in Iterative Jobs)重启策略(Restart Strategies)Flink中的每个function和operator都可以是有状态的(有关详细信息请参阅有状态的运行)。有状态的functions通过处理各个元素/事件来...原创 2019-01-22 21:35:55 · 5343 阅读 · 0 评论 -
Flink Scala API中的类型信息
通过类型清单(manifests) and 类标签功能,Scala对于运行时的类型信息有着非常详细的概念。通常,Scala对象的类型和方法可以访问其泛型参数的类型,因此,Scala程序不会有Java程序那样的类型擦除问题。此外,Scala允许通过Scala的宏在Scala编译器中运行自定义代码,这意味着当你编译针对Flink的Scala API编写的Scala程序时,会执行一些Flink代码。...原创 2019-01-22 21:26:15 · 896 阅读 · 0 评论 -
为什么会有这么多IT培训机构,分析慕课网培训课程情况就都明白了!
http://www.ikeguang.com/获取了慕课网的所有IT培训课程数据,通过pandas和matplotlib从不同领域、课程难易度、数量进行数据分析,发现现在网络教育很火,难怪连百度的吴恩达都退下来开始自己的教育事业了。一、数据获取数据获取主要是用python的简单爬虫,慕课网的数据获取非常容易,这里不再赘述。二、数据预处理读取数据,并且将其变为DataFrame...原创 2019-01-16 23:25:43 · 3018 阅读 · 0 评论 -
读书笔记(一)——支持向量机(SVM)朴素原理
http://www.ikeguang.com/最近在学习分类算法支持向量机(SVM),它是一种监督式学习算法。SVM算法是将原始数据特征转换至另一个高维度,并基于构建一个或多个超平面,使得训练数据中不同类别的数据得以尽可能的分开,同时该超平面需要尽可能地远离各类别中最靠近超平面的数据点。那么就有这样的疑问了:对于线性可分情况能不能像简单神经网络感知机那样找到一条直线将所有点分类?该超平面怎么...原创 2019-01-16 23:22:12 · 507 阅读 · 0 评论 -
spark应用yarn模式提交多个应用,一个Running,其它处于accepted状态
这篇文章解决我们的问题:https://blog.csdn.net/dandykang/article/details/48160927以前只是开发,现在到了一家大数据刚起步公司,需要提交spark应用到yarn,每次只能运行一个,处于Running状态,其它处于Accepted状态,经过几天折腾,仍然只能运行两个spark应用,坚持了一下,终于解决。在NodeManager中启动Exte...原创 2018-07-24 00:02:19 · 4501 阅读 · 11 评论 -
实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示
最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 18关于什么是pv,uv...原创 2018-07-28 15:50:11 · 14234 阅读 · 34 评论 -
hive1.2.1整合hbase遇到的坑
通常我们会整合hive与hbase,通过创建hive外部表,进行一些增删改查hbase表,hive1.2.1整合hbase1.2.6,遇到了一些坑,通过修改了几行hive源代码,编译hive-hbase-handler.jar包解决了这个问题。 下载hive源代码:http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-s...原创 2019-06-20 23:18:43 · 2115 阅读 · 0 评论 -
hadoop 数据迁移
数据迁移使用场景冷热集群数据分类存储,详见上述描述.集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等.数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一......原创 2018-11-18 13:19:36 · 5305 阅读 · 0 评论 -
redis用法总结
工作中经常会用到redis,踩了一些坑,自己也做了一些总结,通过查阅网上资料,不断完善,这里记录一下。主要内容Redis基础redis 内存淘汰策略Redis 常见用法Redis 3种去重方式Redis哨兵模式Redis 读写分离Redis集群模式Codis 用法Jodis - java APIRedis常见应用场景Redis基础Redis是一个开源的使用ANSI C...原创 2018-12-12 22:52:55 · 724 阅读 · 0 评论 -
内存总是不够???| hbase内存优化配置
hbase是个比较吃内存的大数据组件,虽然数据存在hdfs中,但是不像mysql或者elasearch那样有索引的优势,只能用内存缓存数据来实现快速存取。hbase安装时候,通常都需要修改配置文件,默认配置通常是8G内存的配置。配置文件有问题的话,后果是:hbase集群启动,直接报错,启动失败。所以说,一个好的hbase内存配置,很重要。数据组hbase好端端的,老是不够,然后非常协调...原创 2019-01-13 14:20:45 · 4443 阅读 · 1 评论 -
K-means算法通俗原理及Python与R语言的分别实现
K均值聚类方法是一种划分聚类方法,它是将数据分成互不相交的K类。K均值法先指定聚类数,目标是使每个数据到数据点所属聚类中心的总距离变异平方和最小,规定聚类中心时则是以该类数据点的平均值作为聚类中心。K均值法原理与步骤对于有N个数据的数据集,我们想把它们聚成K类,开始需要指定K个聚类中心,假设第i类有ni个样本数据,计算每个数据点分别到聚类中心的距离平方和,距离这里直接用的欧式距离,还有什么...原创 2019-01-19 10:47:51 · 680 阅读 · 0 评论 -
Python简单文本分析朱自清写《匆匆》的情感状态
目录1、jieba中文分词的三种常用模式2、简单文本分析朱自清写《匆匆》的情感状态分词结果下面统计词频分词是自然语言处理(NLP)中最底层、最基本的模块,分词精度的好坏将直接影响文本分析的结果。有好多大型的分词系统(比如北京理工大学张华平博士开发的中文分词系统:ICTCLAS,是一个很优秀的分词系统),这里介绍Python中使用的小巧、强大的jieba中文分词。首先获得ji...原创 2019-01-19 10:57:29 · 806 阅读 · 0 评论 -
5分钟学会马尔科夫模型
马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。有时候,数学就是这么强大,数学家就是这么富于创造力。很多人觉得马尔科夫不好理解,今天先对马尔科夫模型做一个5分钟快速入门,希望对新手有帮助!一、马尔科夫模型包括我自己,很多人都不...原创 2019-01-19 11:01:51 · 21977 阅读 · 4 评论 -
人工神经网络实现简单的逻辑运算
目录官方定义1、人工神经元模型2、转移函数3、matlab实现简单的逻辑运算什么是人工神经网络,我的理解就是:举个不太恰当的例子,当你训练你的狗时,第一次给它一个橘子,跟它说这是橘子;下一次再给它橘子,看它还认不认识,如果不认识,继续告诉他,直到狗可以认出橘子为止。那么下次你就可以给它拿一个香蕉,问它这是不是橘子,如果它说不是,说明它已经被训练的差不多了。官方定义神经网...原创 2019-01-19 11:12:49 · 3431 阅读 · 0 评论 -
决策树之剪枝算法手动计算+R语言简单实现——(二)
目录决策树的修剪决策树规则提取决策树算法小结R语言小例子在上一篇我们介绍了,决策树的数据准备与决策树的生长,也用一个小例子手动计算了决策树的生长分支过程。常用的分支准则方法有三种:信息增益、信息增益率、基尼系数。其实,这里问题就来了,决策树是可以不加限制的生长到有可能到很深的吗?当然是不行的,这就是这一节需要介绍的主要内容之一决策树的修剪,当然还会对决策树算法规律稍微总结一下,...原创 2019-01-19 11:42:40 · 5674 阅读 · 0 评论 -
python查询hive结果保存到mysql的python代码优化历程
由于hive查询结果是不能直接保存到mysql的,有人会用sqoop,相对还是不方便。当然了,肯定还有一些其它的hive~mysql互导工具,通常我们用python驱动hiveserver2,hivecli官方并不建议,也利用python将结果保存到mysql。那么python操作hive查询结果保存到mysql过程是怎么样的呢?1、需要的包网上百度,搜到的包不外乎下面3个,这里用第二个。...原创 2019-01-16 22:42:25 · 1582 阅读 · 0 评论 -
数据分析应该怎么学?———一个包含数据获取与分析的小项目
http://www.ikeguang.com/数据来源:前程无忧网获取方式:爬虫数据量:所有最新的招聘信息(武汉)时间:最近几天分析对象:a:实习律师;b:律师助理分析视角:1、不同工资区间比例;2、不同经验要求的比例;3、不同学历要求的比例;4、不同律所的平均工资水平;5、结论。律师行业整体属于高收入群体,那么实习律师、律师助理工资又会是怎样一个水平呢。对于这...原创 2019-01-16 23:00:02 · 547 阅读 · 0 评论 -
隐马尔科夫模型(HMM)趣味理解与实现
http://www.ikeguang.com/在马尔可夫模型中,每一个状态都是可观察的序列,是状态关于时间的随机过程,也成为可视马尔可夫模型。隐马尔科夫模型中的状态是不可见的,我们可以看到的是状态表现出来的观察值和状态的概率函数。在隐马模型中,观察值是关于状态的随机过程,而状态是关于时间的随机过程,因此隐马模型是一个双重随机过程。什么叫状态序列与观察序列呢?举个例子:假如,有一对男生...原创 2019-01-16 23:09:09 · 549 阅读 · 0 评论 -
基于梯度下降法的——线性回归拟合(二)
http://www.ikeguang.com/阅读本文需要的知识储备:高等数学 运筹学 Python基础1、引出梯度下降对于,线性回归问题,上一篇我们用的是最小二乘法,很多人听到这个,或许会说:天杀的最小二乘法,因为很多人对它太敏感了。是的,从小到大,天天最小二乘法,能不能来点新花样。这里就用数学算法——梯度下降,来解决,寻优问题。当然了,我们的目标函数还是:在开始...原创 2019-01-16 23:15:27 · 1805 阅读 · 0 评论 -
决策树分析理论之分支准则+实例计算(一)
http://www.ikeguang.com/决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树具有监督式的特征提取与描述的功能,将输入变量根据目标设定来选择分支变量与分支方式,并以树枝状的层级架构呈现,以提取分类规则。构建决策树目的探索 预测构建决策树的步骤数据准备 决策树生长 决策树修剪 规则提取在...原创 2019-01-16 23:19:07 · 4613 阅读 · 0 评论 -
阿里云下载镜像失败:ERROR: certificate common name “img.ucdl.pp.uc.cn” doesn’t match requested host name “mirr
阿里云有一个镜像网站,网址是https://mirrors.aliyun.com/apache/ 在公司的时候,发现从这里下载东西很快,因为这是国内的镜像嘛!回到家后,想在自己电脑上虚拟机下载一个hbase,发现出现错误: ERROR: certificate common name “img.ucdl.pp.uc.cn” doesn’t match requested host name...原创 2018-07-02 21:34:32 · 5129 阅读 · 0 评论