大数据
文章平均质量分 80
终极量化数据
十多年.Net,Java后台开发经验,丰富的python爬虫和数据分析能力,专注于研究大数据和人工智能技术,理论,架构与原型实现,每周分享技术干货。同时致力于python量化投资分析,欢迎关注,一起做技术研究和交流。
个人原创公众号「 猫头鹰数据分析 」,更新技术干货,欢迎关注!!!
展开
-
Rancher安装报错 Failed to bring up Etcd Plane: etcd cluster is unhealthy
[etcd] Failed to bring up Etcd Plane: etcd cluster is unhealthy: hosts [192.168.100.666] failed to report healthy. Check etcd container logs on each host for more information原创 2022-02-23 15:27:59 · 4260 阅读 · 0 评论 -
详解在Centos7.6部署最新版Rancher2并组建K8S集群
Rancher是一个开源的企业级容器管理平台。通过Rancher,企业再也不必自己使用一系列的开源软件去从头搭建容器服务平台。Rancher提供了在生产环境中使用的管理Docker和Kubernetes的全栈化容器部署与管理平台。主要包括服务管理,公有云节点管理,支持第三方用户权限管理,应用商店,api很是灵活,只是文档较少,让你更多的去参考 官方文档。原创 2022-02-23 14:43:22 · 1315 阅读 · 1 评论 -
Rancher2忘记admin登录密码
Rancher2忘记admin登录密码原创 2022-02-24 09:54:41 · 5448 阅读 · 0 评论 -
Linux搭建MySQL主从复制
手把手教学在Linux搭建MySQL主从复制原创 2021-11-30 17:47:26 · 2119 阅读 · 0 评论 -
Superset 安装报错: libbz2.so.1.0: cannot open shared object file: No such file or directory
OS : centos 7pbzip2: error while loading shared libraries: libbz2.so.1.0: cannot open shared object file: No such file or directory刚开始,以为此软件没有安装,于是yum install bzip2-libs 。安装之后,依然报错。后来使用find / -name libbz2.so查找文件位置,发现都在/usr/lib64/目录下,然后在此目录中,做一个软链接libbz原创 2021-11-02 19:54:03 · 2079 阅读 · 0 评论 -
最新版Flink1.14.0集群超详细部署及测试
Flink在9月份发布了最新版Flink1.14.0,新版本中 Flink 一个主要变化是集成的流媒体和批处理体验,此外,在 SQL API、更多连接器支持、检查点和 PyFlink 等方面也带来了许多新功能和改进。更多详细内容,点击1.14.0 发布公告GitHub 地址:https://github.com/apache/flink参考链接:Apache Flink: Apache Flink 1.14.0 Release Announcement 正好我的Flink环境需要重...原创 2021-10-21 11:25:45 · 7832 阅读 · 2 评论 -
大数据分析学习第十八课 CDH6.3.2详细安装配置
yum -y install wget下载文件wget -c http://119.29.179.227/cdh/CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcelcdh6.1.0 离线包:CDH-6.1.0-1.cdh6.1.0.p0.770702-el7.parcelCDH-6.1.0-1.cdh6.1.0.p0.770702-el7.parcel.sha256manifest.json下载: https://archive....原创 2021-10-21 11:24:05 · 3086 阅读 · 3 评论 -
CDH6.3.2安装cloudera-manager-daemons出现JDK版本不兼容问题
如题,今天在测试环境安装CDH6.3.2时,执行rpm -ivh cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm,输出以下错误:warning: cloudera-manager-daemons-6.3.1-1466458.el7.x86_64.rpm: Header V3 RSA/SHA256 Signature, key ID b0b19c9f: NOKEYPreparing...原创 2021-10-17 20:19:57 · 2720 阅读 · 1 评论 -
Spark3.X 编译源码支持hive(亲测可用)
Spark官网提供的编译版本默认是不支持Hive的,今天就给大家介绍采用源码编译方法得到支持Hive的Spark版本原创 2021-10-13 16:04:13 · 1936 阅读 · 5 评论 -
大数据分析学习第十七课 基于Hadoop2.7.5安装Sqoop1.4.7(亲测可用)
关键字:Linux CentOS Sqoop Hadoop Hive Java版本号:CetOS7.6 Sqoop1.4.7 Hadoop2.7.5 Hive2.1.0Sqoop简介 Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:Mysql、Oracle、DB2等Sqoop可以理解为:“SQL 到 Hado...原创 2021-10-12 15:43:27 · 553 阅读 · 0 评论 -
Spark3.0.3版本报““main“ java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream“
大数据开发环境就是这样,你刚填完一个坑,就掉入了另外一个坑,运行一个spark远程调用示例 SparkConf sparkConf = new SparkConf() .setMaster("spark://ss3:7077") .setAppName("JavaSparkPi"); SparkSession spark = SparkSession .builder() .原创 2021-09-24 14:01:43 · 1504 阅读 · 0 评论 -
Spark:3.0.3版本报错“java.lang.NoSuchFieldError: JAVA_9“
Exception in thread "main" java.lang.NoSuchFieldError: JAVA_9 at org.apache.spark.storage.StorageUtils$.<init>(StorageUtils.scala:207) at org.apache.spark.storage.StorageUtils$.<clinit>(StorageUtils.scala) at org.apache.spark.storage.BlockM.原创 2021-09-24 09:38:27 · 6028 阅读 · 4 评论 -
Spark3运行模式介绍
#本地模式两线程运行./bin/run-example SparkPi 10 --master local[2] #Spark Standalone集群模式运行./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://ss3:7077 examples/jars/spark-examples_2.12-3.0.3.jar 100 #Spark on YARN集群上 yarn...原创 2021-09-23 19:21:54 · 286 阅读 · 0 评论 -
大数据分析学习第十六课 自建云服务器集群使用Ambari创建配置大数据集群和常用组件(二)
Ambari平台里创建配置大数据集群和常用组件上节课我们介绍了怎么在离线环境下配置安装ambari和hdp,并成功启动了ambari服务这节课登录后,我们点击【LAUNCH INSTALL WIZARD】我们输入一个集群名称选择版本因为我们是离线安装,这里的库我们全部指定tt1服务器的资源,操作系统要选redhat7上面填写的三处地址,其实就是我们配置的离线yum源的地址HDP-3.1: http://xx.xx.xx.xx:8081/hdp/HDP...原创 2021-08-16 19:14:19 · 438 阅读 · 0 评论 -
大数据分析学习第十五课 自建云服务器集群离线安装Ambari2.7.5和HDP3.1.5(一)
之前了解了很多关于大数据平台一站式部署管理的工具,比如Apache Ambari和CDH,目前最新的CDH已经没有了社区版,也就是说以后使用新版本的Cloudera Manager和CDH都是要收费的,这对于很多小公司来说,可能无法承受。转向Ambari是他们的一个可选项。 Ambari是Apache的一个顶级开源项目,开源是其最大的优势,开源也意味着Ambari可以灵活地进行扩展,集成更多的数据组件,对于需要定制化和二次开发的企业来说,Ambari也极具吸引力。 由于之前学习大...原创 2021-08-10 19:16:20 · 1044 阅读 · 0 评论 -
大数据分析学习第十四课 kafka 2.4.1单机版部署及使用
最近在学习Flink,不可避免的需要用到kafka消息中间件,下面介绍下单机部署流程1.下载2.4.1版本我的Flink版本是1.12,对应的kafka版本要使用2.4.1的 我们下载kafka_2.11-2.4.1这个版本,2.11是scala版本http://kafka.apache.org/downloads同时我们下载kafka eagle监控kafka状态,这里我用的最新版本2.0.6https://codeload.github.com/smartloli/kafka-ea.原创 2021-08-04 18:18:52 · 663 阅读 · 1 评论 -
hiveserver2服务的启动与简单使用技巧
一、hiveserver2简介Hive在生产上是不需要部署集群的,操作Hive只需要通过它提供的客户端即可,Hive提供了大致三类客户端:hive shell:通过hive shell来操作hive,但是至多只能存在一个hive shell,启动第二个会被阻塞,也就是说hive shell不支持并发操作。WebUI: 通过HUE/Zeppelin来对Hive表进行操作。基于JDBC等协议:启动hiveserver2,通过jdbc协议可以访问hive,hiveserver2支持高并发。简而言之,h原创 2021-08-02 20:14:45 · 13885 阅读 · 1 评论 -
Flink1.9.3运行批处理报:TableException: Create BatchTableEnvironment failed
这个主要是引用依赖的版本不对造成的,我贴出正确flink1.9.3的pom <dependencies> <!-- Flink modules --> <!-- CLI dependencies --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>原创 2021-08-02 20:11:54 · 272 阅读 · 0 评论 -
大数据分析学习第十课 通过.NET for Apache Spark实现wordcount
由于我做了十几年.net开发,所以对.net技术还算相对熟练和了解,今天我们就在windows环境下实现spark环境部署,以及简单的wordcount示例第一步 环境准备我们要在.net下运行程序,肯定要先安装.net,现在都讲究跨平台开发,所以我们采用.net下的跨平台.NET Core SDK,下面是下载链接https://dotnet.microsoft.com/download/dotnet/3.1我们采用3.1版本,安装 .NET Core SDK 后,我们打开一个新的cm.原创 2021-07-16 10:27:23 · 127 阅读 · 0 评论 -
大数据分析学习第十二课 Superset 1.2.0最新版在 windows环境下的安装过程
pip install --upgrade apache-superset原创 2021-07-16 19:16:14 · 562 阅读 · 0 评论 -
大数据分析学习第十一课 安装Anaconda3配置python数据分析环境
最近学习spark,课程里介绍用到Anaconda3来做开发工具,今天就来安装配置一下首先我们去Anaconda官网下载安装包 这里我们下载windows版本https://www.anaconda.com/products/individual#Downloads原创 2021-07-15 20:08:45 · 405 阅读 · 0 评论 -
大数据分析学习第九课 Spark集群环境搭建
大数据分析学习第九课 Spark 集群环境搭建今天我们介绍一下怎么搭建Spark集群环境诞生于 2009 年的 Apache Spark,目前已成为全球范围内最流行、功能最全面、社区最活跃的大数据处理技术。从 GitHub 的数据中可以看到,在 Apache 的所有开源项目中,Spark 的关注度排名第 3(前两位分别是 RPC 服务框架 Dubbo 和可视化平台 Superset),在所有大数据处理技术中排名第 1。...原创 2021-06-03 19:22:04 · 289 阅读 · 1 评论 -
大数据分析 clickhouse安装配置及使用
大数据分析 mysql数据迁移clickhouse最近项目遇到个问题,就是mysql做数据分析高并发情况下,老是报超时错误,主要原因还是因为mysql进行大批量关联查询太耗时间,于是在网上查询了下资料,决定试一下clickhouse一、Clickhouse简介Yandex在2016年6月15日开源了一个数据分析的数据库,名字叫做ClickHouse,这对保守俄罗斯人来说是个特大事。更让人惊讶的是,这个列式存储数据库的跑分要超过很多流行的商业MPP数据库软件,例如Vertica。如果你没有听...原创 2021-05-24 18:59:08 · 1044 阅读 · 0 评论 -
大数据分析学习第八课 数据仓库Hive配置客户端可视化管理工具DBeaver
我一直有个习惯,能用可视化工具操作的服务绝不用命令行,一是命令行需要大量机械化记忆,久了不用容易忘,二是使用工具有很多快捷的操作,可以提高工作效率。上篇文章介绍了怎么配置Hive服务,这节课我们就介绍下怎么使用可视化管理工具DBeaver连接Hive。 DBeaver的优点: 1、除了支持Hive,还支持各种关系型数据库,如连接Oracle数据库不需要像plsql那样自己配置连接文件,只需要在界面上输入url、用户名、密码即可 2、操作方便,可以使用各种快捷键操作数据。...原创 2021-04-24 17:36:55 · 1302 阅读 · 0 评论 -
大数据分析学习第七课 数据仓库HIVE基础学习
Hive是一个基于Hadoop的数据仓库工具,它本身并不存储数据,部署在Hadoop集群上,数据是存储在HDFS上的.Hive所建的表在HDFS上对应的是一个文件夹,表的内容对应的是一个文件。它不仅可以存储大量的数据而且可以对存储的数据进行分析,但它有个缺点就是不能实时的更新数据,无法直接修改和删除数据,如果想要修改数据需要先把数据所在的文件下载下来,修改完之后再上传上去。Hive也不是分布式计算框架,Hive的核心工作就是把sql语句翻译成MR程序去执行,不用我们再手动去写MapReduce了。原创 2021-04-16 18:42:11 · 815 阅读 · 3 评论 -
大数据分析学习第六课 使用Java语言开发MapReduce实战
我们知道,从Hadoop官网下载的部署包里,提供了不少jar包示例,但是我们不了解内部的实现逻辑,今天我就给大家介绍下,在java开发环境下怎么实现一个MapReduce reduceTask聚合操作,就是对key相同的一组数据进行处理,具体的聚合逻辑通过接口的方式暴露给用户,由用户来指定(同mapTask方式)。 reduce Task处理结果,将最后的聚合结果写入hdfs中,每个reduceTask最终形成一个文件,文件名称默认是part-r+reduceTask的编号。...原创 2021-04-08 20:11:15 · 1259 阅读 · 0 评论 -
大数据分析学习第五课 使用pycharm开发hdfs的基本功能-增删改查
在上节第四课中,我们介绍了使用java编程工具idea创建一个maven项目,来操作hadoop集群上的文件,这节我们介绍下怎么使用python开发工具pycharm来读、写和上传文件。我们介绍这2种方式的原因是,通过hadoop hive或spark等数据计算框架完成数据清洗后的数据是存储在HDFS上的,而爬虫和机器学习等程序在Python或java中容易实现,在Linux环境下编写Python或java程序没有那么便利,所以我们需要建立Python,Java与HDFS的读写通道。首先,我们启原创 2021-03-25 14:12:12 · 2323 阅读 · 1 评论 -
大数据分析学习第四课 使用Java idea开发hdfs的基本功能-增删改查
在上节第三课中,我们介绍了Hadoop集群使用HDFS和MapReduce,我们在介绍HDFS时,都是直接运行hadoop命令来上传文件,这节课我们介绍在java环境调用和操作HDFS的文件管理功能。 我们知道,通过hadoop hive或spark等数据计算框架完成数据清洗后的数据是存储在HDFS上的,而爬虫和机器学习等程序在Python或java中容易实现,在Linux环境下编写Python或java程序没有那么便利,所以我们需要建立Python,Java与HDFS的读写通道。1、...原创 2021-03-25 19:57:29 · 636 阅读 · 0 评论 -
大数据分析学习第三课 Hadoop集群使用HDFS和MapReduce
上节我们已经成功配置并启动了hadoop集群,1台namenode节点,2台datanode节点,接下来我们就利用hadoop大杀器,使用HDFS和Mapreduce1、测试HDFS的功能我们先上传一个文件到HDFS,先查看software目录里面有我们之前配置java的jdk包,我们就上传这个文件,输入hadoop可以查看帮助信息,看到有fs我们再输入hadoop fs,可以看到有很多命令可用,其中我们很关注的便是上传和下载功能,即下图中的-get和-put命令HDFS的上原创 2021-03-24 09:10:25 · 533 阅读 · 0 评论 -
大数据分析学习第二课 Hadoop集群安装与配置
上节我们学习了虚拟机环境配置,包括JDK安装,主机名修改,ssh免密登录等内容,这节我们学习一下Hadoop的安装及环境配置1、首先我们需要到Apache官网下载我们需要的Hadoop版本,Apache产品官网是:http://archive.apache.org/dist/,我们到hadoop目录core,下载需要的包我这里用的是hadoop-2.7.3,我们把包上传到105,106和107服务器/software/目录下,全部解压tar -zxvf hadoop-2.7.3.ta..原创 2021-03-23 19:42:50 · 445 阅读 · 0 评论 -
大数据分析学习第一课 准备虚拟机环境
2004年,葛优的电影《天下无贼》里面有一句台词,给我的印象很深刻,是一句自问自答,“21世纪什么最重要?人才!”,也是在那一年,Google公开发表了一篇论文:《简化大规模集群上的数据处理》,标志着Hadoop的计算框架MapReduce的诞生。到了2021年的今天,我想把那句话扩展一下,“21世纪什么最重要?数据和人才!”,大数据时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。 由于近两年在工作中经常处理各种数据,我逐渐意识到自己的工作,其...原创 2021-03-23 19:41:54 · 634 阅读 · 1 评论 -
Centos安装配置python3.7.10
python现在最新已经到3.9了,但是很多包还是不兼容的 ,这里给大家介绍3.7.10在linux环境下的安装配置。具体的安装步骤网上有非常非常多,我这里只讲重点吧。一、安装依赖包,主要是安装过程需要调用和依赖的包,终端执行yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gcc makeyum install libffi-devel -y /原创 2021-03-10 18:24:00 · 3509 阅读 · 8 评论