大数据基础
文章平均质量分 73
包含环境部署以及基础语法等
Alex_81D
修身,赚钱,助人,玩天下
展开
-
HTTP方式在线访问Hadoop HDFS上的文件解决方案
为了通过HTTP方式在线访问HDFS上的文件,您可以利用WebHDFS REST API或者HttpFS Gateway这两种机制实现。1:httpfs是cloudera公司提供的一个hadoop hdfs的一个http接口,通过WebHDFS REST API 可以对hdfs进行读写等访问2:与WebHDFS的区别是不需要客户端可以访问hadoop集群的每一个节点,通过httpfs可以访问放置在防火墙后面的hadoop集群3:httpfs是一个Web应用,部署在内嵌的tomcat中。原创 2024-04-28 21:45:00 · 2164 阅读 · 1 评论 -
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决。最近在使用海豚调度DolphinScheduler的Datax组件时,遇到这么一个问题:之前给客户使用海豚做的离线数仓的分层搭建,一直都运行好好的,过了个元旦,这几天突然在数仓做任务时报错原创 2024-01-11 22:45:00 · 1654 阅读 · 0 评论 -
Idea 离线安装MavenRunHelper插件并排查Hbase中Guava冲突问题解决
通过Maven Helper工具查找依赖冲突项,排除修改冲突依赖,从而解决出现问题的依赖。原创 2023-08-15 00:30:00 · 915 阅读 · 0 评论 -
spark读取、写入Clickhouse以及遇到的问题
最近需要处理Clickhouse里面的数据,经过上网查找总结一下spark读写Clickhouse的工具类已经遇到的问题点。原创 2023-05-05 22:45:00 · 1706 阅读 · 0 评论 -
spark读写时序数据库 TDengine 错误总结
spark读写时序数据库 TDengine 错误总结原创 2023-04-18 23:30:00 · 1071 阅读 · 0 评论 -
scala中:_*的使用和scala中的:: , +:, :+, :::, +++ 等操作
scala中:_*的使用和scala中的:: , +:, :+, :::, +++ 等操作。Scala 允许函数的最后一个参数可以是重复的。这可以允许用户向函数传入可变长度参数列表。想要声明一个重复参数,在参数的类型之后放一个星号。原创 2023-04-27 22:19:35 · 749 阅读 · 0 评论 -
Scala 中的foreach和map、flatMap方法比较
scala做为一种支持函数式编程范式的语言,必然要引入一种机制以支持数学中函数概念,而在数学中函数就是映射,所以scala中有map方法一点都不奇怪。总而言之,foreach用于遍历集合,而map用于映射(转换)集合到另一个集合。Scala中的集合对象都有foreach和map、flatMap方法,都是用来遍历当前集合,但他们都有不同点。map的参数是一个函数,List中的每个元素都应用于这个函数,并且返回一个新的集合。这几个方法的共同点在于:都是用于遍历集合对象,并对每一项执行指定的方法。原创 2023-03-29 23:15:00 · 421 阅读 · 0 评论 -
JAVA识别PDF和OFD电子发票并解析为java对象
上一篇我们说了java实现电子发票中的发票税号等信息识别的几种可用方案,最后博主选取了识别文件二维码的方式,而且文章最后也说了,这种有局限性,去到的信息有限,而且针对OFD格式也得继续想办法,那接下来,我们就说一下怎么处理这个问题,并且如何去识别OFD格式的发票文件中的内容原创 2023-03-01 23:07:49 · 7695 阅读 · 8 评论 -
java实现电子发票中的发票税号等信息识别的几种可用方案
需要做一个电子发票中发票税号的识别,于是乎就开始去调研看有哪些方案,最先想到的就是OCR文字识别,自己去画框训练模型去识别税号等相关信息话不多说开整思路:思路一:百度AI平台去直接调用思路二:自己基于模型训练思路三:基于本地化代码识别票据中信息这几种思路接下来我都会详细展开说,且每种方式的优缺点博主也会说清楚,仅供大家参考原创 2023-02-09 22:43:53 · 28439 阅读 · 22 评论 -
Spark 读取、写入时序数据库TDengine以及TDengine概述
TDengine 是一款高性能、分布式、支持 SQL 的时序数据库,其核心代码,包括集群功能全部开源(开源协议,AGPL v3.0)。TDengine 能被广泛运用于物联网、工业互联网、车联网、IT 运维、金融等领域。除核心的时序数据库功能外,TDengine 还提供缓存、数据订阅、流式计算等大数据平台所需要的系列功能,最大程度减少研发和运维的复杂度原创 2023-02-01 22:30:00 · 1951 阅读 · 2 评论 -
Hadoop集群增加节点不删数据详细操作步骤
Hadoop集群增加节点不删数据详细操作步骤:首先说一下这篇文章:今天主要说说当节点不够时,如何快速扩容,一会会儿就搞定了,上步骤:前面这些步骤跟上面一样,我就不细说了。原创 2022-10-26 16:14:24 · 1360 阅读 · 0 评论 -
hive详细安装步骤启动等
此文章包含两部分,一部分是mysql的安装,一部分是hive的安装和启动,当然安装mysql是为了给hive做元信息存储,使用本文的前提是Hadoop已经安装。原创 2022-10-18 19:28:09 · 10250 阅读 · 0 评论 -
超详细的yum方式安装mysql
本文主要介绍通过Yum方式安装mysql服务,此种方式比较简单,采用yum的方式,如果是采用离线安装包的方式请参考博主的另一篇文章:Linux安装mysql以及遇到的问题解决办法_Alex_81D的博客-CSDN博客原创 2022-10-18 18:41:41 · 18305 阅读 · 0 评论 -
window环境下安装大数据环境
window环境下安装大数据环境原创 2022-08-30 14:05:54 · 736 阅读 · 0 评论 -
SparkSql批量插入或更新,保存数据到Mysql中
在sparksql中,保存数据到数据,只有Append,Overwrite,ErrorIfExists,Ignore四种模式,不满足项目需求,此处大概说一下我们需求,当业务库有数据发生变化,需要更新、插入、删除数仓中ods层的数据,因此需要改造源码。......原创 2022-07-20 15:41:16 · 12570 阅读 · 0 评论 -
Spark读取Hive的方式以及出现的雷坑
spark读取Hive的三种方式1.HiveJDBC2.通过服务的方式直接读数据源因为hive只是起到映射的作用,所以最简单、直观的方式就是直接读取数据的存储组件(HDFS\HBASE)1.HiveJDBC方式一:val spark = pec.get[SparkSession]()val dbtable = "( " + sql + ") AS Temp"val jdbcDF = spark.read.format("jdbc") .option("url", jdbc原创 2022-04-27 10:43:46 · 3516 阅读 · 0 评论 -
Sparksession,sparkcontext,sparksql,SparkConf是什么,他们之间什么联系?
目录一.先从SparkContext和SparkConf开始:1.SparkContext 是什么?2、创建SparkContext的步骤:3、SparkConf二、SQLContext和HiveContext1.SQLContext 是什么?2.HiveContext 是什么?三、SparkSession其实对初学spark的同学来说,Sparksession,sparkcontext,sparksql,SparkConf看着都特别像,搞着搞着就混了,而且每次创...原创 2022-04-02 16:46:28 · 2801 阅读 · 0 评论 -
hadoop启动后jps查不到namenode的解决办法
启动过程没有发现错误,但是jps查看进程时,发现少了NameNode,而DataNode却存在:原因之一是:端口9000已经被占用,解决办法有两个,一:查找占用端口的进程,kill掉它。kill -9 7056(7056是进程号)最后重新执行启动脚本,jps就可以看到NameNode了二:修改core-site.xml文件,把9000改成其他如9001.(具体端口根据自己需要修改)原创 2022-01-27 11:07:06 · 11480 阅读 · 0 评论 -
用idea新建maven项目,创建Scala项目--做个记录
最近需要个干净的spark项目,之前项目上的项目太过复杂,就索性搭建一个全新的spark-java maven项目,做个记录,免得下次又得找,步骤如下:一、 新建maven项目1. File-> New -> project -> macen -> 勾选Create From archetype2. 设置GroupID和ArtifactID (这个你看这写),点击next3.配置maven,如果不配最后进到项目也可以配置,建议提前配好;file->set原创 2021-06-15 11:33:06 · 3516 阅读 · 1 评论 -
Spark Yarn内存资源计算分析(参考)--Executor Cores、Nums、Memory优化配置
Spark on Yarn Executor Cores、Nums、Memory优化配置三方面内容:executor 核心数目,executor 数量,executor 内存。对于driver memory 这个参数,设置比较灵活,一般1-8,这里不就不多说设置以上三个参数,除了计算集群的节点数、节点Cores和内存大小外,还需要考虑以下四点因素:spark使用yarn做资源管理,yarn后台使用一些守护进程中运行的,如NameNode,Secondary NameNode,DataNode,J原创 2021-03-18 19:11:03 · 2227 阅读 · 0 评论 -
CentOS7安装CDH6.2.0安装过程--详细版
准备建议最少4台物理机或者虚拟机(一个控制节点,3个数据节点),4核16G,硬盘500G,挂载根目录 如果用于学习,可以4核8G,如果是生产部署,推荐8核32G以上 系统为CentOS7.6,使用root用户登录 CDH版本为6.2.0节点说明规划:cdh1 主节点cdh2 从节点cdh3 从节点cdh4 从节点基础配置挂载磁盘操作请参考这篇文章 : https://blog.csdn.net/Alex_81D/article/details/10504...原创 2020-11-19 10:08:23 · 1579 阅读 · 0 评论 -
scala基础语法-----Spark基础
scala基础语法-----Spark基础原创 2020-09-29 18:11:45 · 816 阅读 · 0 评论 -
Spark小Demo,连接mongo,并处理密码或者用户名带特殊符号
sprak小demo,用spark连接mongodb,并且处理密码或者用户名带特殊符号的方法import java.net.URLEncoderimport com.mongodb.spark.MongoSparkimport com.mongodb.spark.config.ReadConfigimport org.apache.spark.sql.SparkSessionimport org.junit.Testclass FlowTest2 { @Test def te.原创 2020-09-11 15:01:57 · 1158 阅读 · 0 评论 -
CentOS7安装CDH6.2.0以及CDH安装过程的坑
Can't open /var/run/cloudera-scm-agent/process/261-hdfs-DATANODE/supervisor.conf: Permission denied.这个问题先处理权限问题,处理完事儿后再试,sduochmod-R777/usr/local/hadoop/logschown-Rcloudera-scm:cloudera-scm/var/*不行再用第二种方法;怀疑是权限问题,上网查询了之后,才知道看起来...原创 2020-06-03 16:17:23 · 1825 阅读 · 0 评论 -
Hadoop YARN中内存优化的设置---yarn.scheduler.maximum-allocation-mb
在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceManager将某个NodeManager上资源分配给任务(这就是所谓的“资源调度”)后,NodeManager需按照要求为任务提供相应的资源,甚至保证这些资源应具有独占性,为任务运行提...原创 2020-03-31 13:29:14 · 8692 阅读 · 0 评论 -
[Apache软件下载]-- apache各种版本的软件和源码下载网址(包含历史版本)
一、链接:http://archive.apache.org/dist/二、举例1、spark下载:http://archive.apache.org/dist/spark/2、hadoop下载:http://archive.apache.org/dist/hadoop/3、flume下载:http://archive.apache.org/dist/flume/4、kafka...转载 2020-03-27 10:34:01 · 474 阅读 · 0 评论 -
Spark集群无法停止的原因分析和解决(Hadoop集群也有这个问题)
今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止。提示:no org.apache.spark.deploy.master.Master to stopno org.apache.spark.deploy.worker.Worker to stop上网查了一些资料,再翻看了一下stop-all.sh,stop-master.sh,stop-s...原创 2020-03-25 13:24:03 · 841 阅读 · 0 评论 -
RDD和DataFrame和DataSet三者间的区别
https://blog.csdn.net/deng624796905/article/details/80216168https://blog.csdn.net/weixin_43087634/article/details/84398036这两篇文章讲的很详细,大神级别的,可以拜读DataFrame多了数据的结构信息,即schema。RDD是分布式的Java对象的集合。DataFr...转载 2020-01-07 16:27:11 · 489 阅读 · 0 评论 -
java 读取hdfs上的文件内容
java 读取hdfs上的文件内容原创 2019-12-20 16:00:41 · 8312 阅读 · 2 评论 -
ealsticsearch+kibana安装搭建使用
ealsticsearch版本:elasticsearch-7.0.0kibana版本:kibana-7.0.0本文修改配置,创建文件皆是root用户,启动都是新增的用户下载地址: (官网下载) ealsticsearch:https://www.elastic.co/downloads/past-releases kibana:https:/...原创 2019-11-14 20:41:06 · 610 阅读 · 0 评论 -
超详细Spark on yarn 集群搭建部署
1.首先准备软件包下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz2.解压到对应目录后,修改配置文件(前提Java已经安装过了)解压的Linux命令:tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz3.配置环境变量...原创 2019-11-14 16:29:08 · 1575 阅读 · 1 评论 -
关于spark on yarn 的那些事
在Spark Standalone模式下,集群资源调度由Master节点负责。Spark也可以将资源调度交给YARN来负责,其好处是YARN支持动态资源调度。Standalone模式只支持简单的固定资源分配策略,每个任务固定数量的core,各Job按顺序依次分配资源,资源不够时排队等待。这种策略适用单用户的场景,但在多用户时,各用户的程序差别很大,这种简单粗暴的策略很可能导致有些用户总是分配不到资...原创 2019-11-14 16:06:59 · 269 阅读 · 0 评论 -
超详细的Hadoop集群部署
本文建立在已经把虚拟机ip环境等已经下载好情况下。那么,直接开始今天的正题:搭建集群环境准备这里提供两种思路:一种是将一台直接搭建好,后面的克隆或者copy虚拟机一种是3台并进,多次进行虚拟机之间文件互传,各有利弊,第一种方式容易漏改ip等问题,第二种方式简单明了,一遍过手,就是步骤稍微多一点,这里采用第二种方式:1、配置服务器(我这里是以3台为例)1个主节点:hadoop1(...原创 2019-11-08 00:07:13 · 31713 阅读 · 2 评论 -
关于java语法写spark sql 获取java对应bean对象的写法
用spark实现查数据库对象的方法,话不多说直接撸代码:SparkSession spark = SparkSession .builder() .appName("JavaWordCount").master("local") .getOrCreate();//前提map里面已经有相应的参数了String url = map.get("...原创 2019-10-23 17:44:27 · 747 阅读 · 0 评论 -
linux安装redis 详细完整步骤
最近在linux服务器上需要安装redis,来存放数据,增加用户访问数据的速度,由于是第一次安装,于是在百度上搜了一篇文章,按照这篇博客,顺利安装好了,因此将博主的文章拷过来记录一下,方便以后使用,也为需要的朋友提供一个方便,安装:1.获取redis资源 wget http://download.redis.io/releases/redis-4.0.8.tar.gz这个最好放...原创 2019-09-26 17:41:17 · 299 阅读 · 0 评论 -
LINUX安装nginx详细步骤
centOS6及以前版本使用命令: systemctl stop iptables.service。centOS7关闭防火墙命令: systemctl stop firewalld.service。命令: cd /usr/local/nginx/sbin。./nginx -s reload 重启。随后访问该ip即可看到nginx界面。./nginx -s stop 关闭。安装完成一般常用命令。./nginx 启动。原创 2019-09-26 15:58:08 · 307 阅读 · 1 评论 -
轻松搞定 ssh localhost 免密码登陆
每次搞ssh locahost无密码登陆都要查半天,比较麻烦2 如果不输入口令就无法用ssh登陆localhost,执行下面的命令就Ok:ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys可以看到在~目录下生成.ssh目录,目录下有三个文件...原创 2019-08-27 14:05:09 · 448 阅读 · 0 评论 -
单机部署spark环境
最近需要搭建单机版sprak环境,分享一下:1.首先准备软件包下载地址:https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz2.解压到对应目录后,修改配置文件(前提Java已经安装过了)解压的Linux命令:tar -zxvfspark-2.4.3-bin-...原创 2019-08-27 14:34:27 · 3050 阅读 · 0 评论