大数据
文章平均质量分 61
wunanliu
看成败,人生豪迈
展开
-
SparkStreaming中动态广播变量的使用【Java版本】
当前问题产生已经在2年前发生,当前博客只是为了记录当时的情况。原创 2022-07-13 16:59:16 · 3157 阅读 · 0 评论 -
SparkStreaming实时消费Kafka数据,批量写入Mysql数据库,Java版本
SparkStreaming实时消费Kafka数据,批量写入Mysql数据库,Java版本原创 2022-07-04 16:32:36 · 1658 阅读 · 0 评论 -
SparkStreaming消费Kafka数据,实时批量插入ElasticSearch,Java版本
SparkStreaming消费Kafka数据,实时批量插入ElasticSearch,Java版本原创 2022-07-04 16:08:28 · 603 阅读 · 0 评论 -
SparkStreaming消费Kafka,数据实时写入Hbase集群,Java版本
SparkStreaming消费Kafka,数据实时写入Hbase集群,Java代码原创 2022-07-03 20:34:49 · 855 阅读 · 0 评论 -
SparkStreaming消费Kafka数据,实时写入HDFS,Java版本
SparkStreaming消费Kafka数据入HDFS原创 2022-07-03 20:06:27 · 1735 阅读 · 2 评论 -
SparkStreaming消费Kafka保证一次语义总结 Java代码
SparkStreaming消费Kafka,偏移量存储在Redis中原创 2022-07-03 14:43:14 · 911 阅读 · 0 评论 -
Logstash实现MySql数据近实时同步ElasticSearch搜索服务
Mysql数据实时同步到ElasticSearch原创 2022-07-01 16:35:19 · 1982 阅读 · 0 评论 -
SparkStreaming消费Kafka无法消费持续阻塞(无异常信息)
产生背景:由于工作需要,目前现有查询业务,其他厂商数据库无法支持,高效率的查询响应速度,于是和数据总线对接,实现接入数据,自己进行数据结构化处理。技术选型:SparkStreaming和Kafka和ElasticSearch本人集群:SparkStreaming 版本2.3,Kafka的Scala版本2.11-Kafka版本0.10.0.0(Kafka_2.11-0.10.0.0.jar)消息总线集群:Kafka总线版本,Kafka_2.10-0.10.2.1.jar由上述可...原创 2022-04-28 17:20:20 · 2749 阅读 · 0 评论 -
CDH大数据平台内存交换,警告问题
前言 博主在使用CDH大数据平台时发现,CDH长时间运行,Cloudera Manager管理页面在运行Spark任务时候经常会出现内存交换警告,前期博主直接忽略,毕竟不是什么大问题,后期发现如果长时间黄色警告不处理,会误导页面查看集群状态,并且交换空间所占用磁盘空间越来越大,并且警告越来越多,后续还会有从黄色变为红色异常等情况,后进入管理界面发现,CDH在安装时,Linux操作系统,有选择交换空间地址交给CDH内存不足情况下使用,测试发现手动释放会解决,管理界面警告问题(黄色警告,看着也不...原创 2020-07-30 18:21:56 · 3979 阅读 · 1 评论 -
Hadoop大数据系列之NoSql海量数据库Hbase入门Shell篇(二)
Hbase的shell命令①、进入Hbase操作hbase shell说明:【搭建好了大数据平台前提下,直接在任何路径下(配置环境变量了)】我们看看HBase Shell的一些基本操作命令,列出了几个常用的HBase Shell命令,如下 名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名......原创 2020-06-03 16:03:56 · 619 阅读 · 0 评论 -
Hadoop大数据系列之NoSql海量数据库Hbase详解原理篇(一)
Hbase的引言:一、什么是Hbase: hbase是Apache 组织开源的顶级项目 distributed, scalable, big data store 产品。 hbase是Google 的BigTable论文的开源实现。 hbase是基于Hadoop的一个NoSQL产品 Column类型的NoSQL。 hbase是Google BigTable的开源实现, 数据存储于Hdfs上。 hbase运行亿级别数据查询时,效率可...原创 2020-06-01 15:37:38 · 2999 阅读 · 0 评论 -
Hadoop大数据平台数据迁移方案(跨集群)
1、准备大数据平台迁移工作 由于公司项目业务需求,需要将两个项目的大数据平台进行迁移,业务数据进行跨平台平移。前提(大数据平台之间网络互通)第一种方案(Linux原生远程Shell命令拷贝)①将Hive数据通过MR写到其他Linux文件夹中:hive> insert overwrite local directory '/usr/test' select * from test;上述是通过MR任务计算!② 通过Linux原生SCP拷贝将本机文件复制到远程服...原创 2020-05-11 17:12:15 · 4116 阅读 · 0 评论 -
FastDFS分布式集群搭建,详细教学从入门到使用(生产环境下)
一、FastDFS是什么? FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。FastDFS为互联网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用FastDFS很容易...原创 2020-02-05 20:49:03 · 3519 阅读 · 2 评论 -
Cloudera Manager,离线搭建CDH大数据平台,版本5.15.2
Cloudera Manager及CDH版本安装全程记录 大家都知道,Apache Hadoop的配置很繁琐,而且很零散,为此Cloudera公司提供了Clouder Manager工具,而且还封装了Apache Hadoop,flume,spark,hive,hbase等大数据产品形成自己特色的CDH产品,再使用CM进行安装,很大程度上方便了集群的搭建,并提供了集群的监控功能...原创 2019-10-21 20:14:12 · 1021 阅读 · 0 评论 -
【白话】10分钟看懂Docker和K8S是什么☺
2010年,几个搞IT的年轻人,在美国旧金山成立了一家名叫 dotCloud 的公司这家公司主要提供基于PaaS的云计算技术服务。具体来说,是和LXC有关的容器技术LXC,就是Linux容器虚拟技术(Linux container)后来,dotCloud公司将自己的容器技术进行了简化和标准化,并命名为——DockerDocker技术诞生之后,并没有引起行业的关注。而dot...原创 2019-07-22 13:28:52 · 458 阅读 · 0 评论 -
【Spring Boot Web容器集成调用Hbase】 java.io.IOException: No FileSystem for scheme : hdfs
Maven下项目使用没有任何问题,但是使用Spring boot 项目就出问题,怀疑是容器问题,查阅了相当多的资料,所有的大部分解决方案都是 拷贝core-site.xml到本地项目中,然后将下列配置添加到core-site.xml配置文件中,然后重新编译项目,然后再进行PostMan访问,发现还是不行,同样报错第一种,解决方案来源:https://blog.csdn.net/dufufd/a...原创 2019-07-17 18:17:08 · 982 阅读 · 0 评论 -
Could not locate executable null\bin\winutils.exe in the Hadoop binaries 【使用Spring Boot 项目操作Hbase报错】
使用Maven的Java项目,连接Hbase服务器不会报错,但是将相同的代码,拷贝到Spring Boot项目中就会报错,怀疑过是不是容器出了问题。Could not locate executable null\bin\winutils.exe in the Hadoop binaries百度查询各种答案,发现网络博客口径普遍都是说 缺少Hadoop的系统环境变量,如果下载的Hado...原创 2019-07-17 14:32:08 · 1169 阅读 · 0 评论 -
Apache开源顶级项目Ambari搭建HDP大数据平台
搭建Hortonworks Data Platform大数据平台Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。目前最新的发布版本是 2.5.1。就 Ambari 的作用来说,就是创建、管理、监视Hadoop 的集群,但是这里的 Hadoop 是广义,包括的是 Hadoop 整个生态圈(例如 Hive,H...原创 2019-07-16 15:57:08 · 5149 阅读 · 4 评论 -
Hbase、Elasticsearch,Spring Boot Swarger 整合中Jar包冲突问题
问题背景在大数据平台中,项目搭建需要使用es和HBASE搭建数据查询接口,整合的过程中出现jar包冲突的bug :com.google.common.base.Stopwatch.()V from class org.apache.hadoop.hbase.zookeeper.MetaTableLocatororg.apache.hadoop.hbase.DoNotRetryIOExcep...原创 2019-07-18 14:44:06 · 760 阅读 · 0 评论 -
ElasticSerach的6.0.1安装和Kinbana安装
ElasticSerach:安装前期工作 ①:安装JDK-1.8(下载解压,配置profile,很简单就不赘述了),Centos 7.0 ②:下载ElasticSerach安装包,自行选择版本(本人选择6.0.1),下载地址:https://www.elastic.co/downloads/past-releases ③:下载ElasticSerach的IK分词器安装包,下载地址...原创 2019-01-02 14:17:39 · 1594 阅读 · 0 评论 -
ElasticSearch查询总结
一、Es Java API方法6.0.1查询总条数方法TransportClient client = ElasticSearchUtil.getClient("rbc.es","192.168.30.230", 9300);SearchResponse response = client.prepareSearch("liuwunan").setTypes("doc").get();lo...原创 2019-01-17 15:52:28 · 819 阅读 · 0 评论 -
Sqoop 工具进行数据双向导入
一、Sqoop将Mysql数据导入到HDFSShell:实例sqoop import -m 1 --connect jdbc:mysql://192.168.1.1:3306/elens_oauth --username root --password 123456 --table rbc_traffic_radio_user_bak --target-dir /rbc_source/Tr...原创 2019-01-15 16:37:45 · 199 阅读 · 1 评论 -
Hadoop的Hive数仓与ElasticSerach进行集成
Hadoop集群的版本 :2.7.1 ElasticSerach集群版本:6.0.1启动Hive,启动ElasticSerach,去ElasticSerach官网下载:https://www.elastic.co/cn/downloads/...原创 2019-01-15 17:09:35 · 568 阅读 · 0 评论 -
ElasticSearch 6.0.1 批量查询后修改的方法
第一种方法:批量查询和修改POST 192.168.1.201:9200/liuwunan/doc/_update_by_query{ "script": { "source": "ctx._source['sourcetype_code']='10300010003';" }, "query": { "term": { "sourcetype_name": "交通台...原创 2019-01-21 14:11:33 · 633 阅读 · 0 评论 -
ElasticSerach6.0.1出现 None of the configured nodes are available
记使用ElasticSerach 6.01使用阿里云服务器的一次大坑如果是使用阿里云服务器,启动嗅探功能如果是在测试环境下【使用IDEA进行调试】,最好关闭自动嗅探功能,此处设计到 内外网IP问题但是es 嗅探的却是内网ip,我们连接的是外网ip,所以连接失败。当ES服务器监听使用内网服务器IP而访问使用外网IP时,不要使用client.transport.sniff为true,在自...原创 2019-01-23 14:21:33 · 315 阅读 · 0 评论 -
Hive的数据去重Group by Having count()等方法
查询出当前表中,电话号码出现数次数为两次的数据!并且删除掉重复多余的数据,只留下一条数据!having count and group byselect mobile,count(1)cnt from rbc_audience_users group by mobile having count(mobile) >1查询出rbc_audience_users表中 mobile大于一条...原创 2019-01-31 11:43:22 · 8274 阅读 · 0 评论 -
Hive与ElasticSerach集成数据插入的坑
Hive与ElasticSerach集成必须要依赖外部的jar ,否则就是ClassNotFoundException第一种方法: 由于Hive与Es集成,需要第三方Jar,由于Hive和Es不属于同一组织,hive与Es 集成的jar,是第由ElasticSerach公司书写的,所以下载需要去ElasticSerach官网下载下载地址为 :https://www.elastic.co...原创 2019-02-27 15:32:34 · 619 阅读 · 2 评论 -
Hive与ElasticSerach 集成 使用Java代码远程连接踩坑记........................
上一篇博客的地址 :https://blog.csdn.net/weixin_38822045/article/details/87973419第一:在上一篇博客解决了,Hive与ElasticSerach在Linux中集成出现的 ClassNotFoundException之后,通过Beeline操作之后,Beeline.distro脚本里面 添加了"$bin"/hive --ser...原创 2019-02-28 12:43:02 · 346 阅读 · 0 评论 -
Hive多表连接异常,java.lang.ArrayIndexOutOfBounds :140,官方Bug,在3.0.0版本已经被解决了
后续官方解决方案:https://issues.apache.org/jira/browse/HIVE-14564异常详细情况2019-02-28 16:33:44,429 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Got allocated ...原创 2019-03-01 10:20:45 · 5282 阅读 · 0 评论 -
Hadoop运行离线任务,Hive跑MR任务时候,出现Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
一、首先抛出异常问题二、引发问题原因:表连接,左表数据100W,右表数据 300W,进行左右表进行表关联,进行Count进行数据统计,等待运行结果!!!分析问题,查看上述运行流程,即可了解上述异常,查看详细日志信息,URL:即可见到首页出现的问题三、查看页面可见,有如下图片四、由上图和图一可知,此MR程序为 Map端出错,出错程序问题问 内存不足,初步怀疑为 Ma...原创 2019-03-29 16:02:14 · 5093 阅读 · 0 评论 -
ElasticSerach 6.0.1 测试IK分词器和拼音分词器是否生效
posthttp://192.168.1.129:9200/_analyze原创 2019-04-02 11:18:09 · 958 阅读 · 0 评论 -
ElasticSerach6.0.1测试拼音分词器,IK分词器,并且次测试语法
第一步:安装ElasticSearch 6.0.1 下载ElasticSerach,下载IK分词器由于IK和ElasticSerach已经是编译好的,不需要编译,直接在安装解压修改配置文件即可详情请见另一篇安装博客:https://blog.csdn.net/weixin_38822045/article/details/85612242第二步:下载拼音分词器由于拼音分词器并非编译...原创 2019-04-02 13:47:26 · 2052 阅读 · 1 评论 -
ElasticSearch6.0.1 拼音搜索,并且高亮显示结果 —6.X版本
业务需求:公司项目需要搜索实现拼音搜索,中文搜索,并且需要支持拼音中文混合搜索,同时支持简拼搜索,并且高亮搜索字段的结果在公司之前的业务需求下,发现的一个拼音和中文混合搜索的时候,实际使用拼音搜索并且返回结果进行高亮查询的时候,发现的一个问题,高亮标签无法使用,参考百度,CSDN,ElasticSerach中文社区,发现提出当前问题的人很多,基本没有一个好的解决方案,至此,我写了这一篇博...原创 2019-04-15 10:04:00 · 4274 阅读 · 4 评论 -
Linux的Crontab的定时任务编写
第一步:安装CronTab此处省略第二步:编辑CronTab 书写定时配置crontab -e每天早上8点执行0 8 * * * /mnt/disk1/Other/PushDataServer/Strat_Push_Data.sh每天下午14点执行0 14 * * * /mnt/disk1/Other/PushDataServer/Strat_Push_Data.sh...原创 2019-06-12 14:10:40 · 335 阅读 · 0 评论 -
Kafka从入门到基础使用
一、消息队列介绍和kafka1、消息队列(MQ:Message Quene)概念: 存储消息(数据)的容器。容器具有队列的特点(按照顺序先进先出)FIFO。2、消息队列中数据的处理模型:2.2、传统数据的处理模型2.3、消息队列中数据的处理模型(发邮件)3、消息队列的核心组件及其运行模式:3.1、核心组件: producer...原创 2019-07-05 19:11:37 · 687 阅读 · 0 评论 -
技术网站备份
Es 下 载,版本选择:https://www.elastic.co/downloads/past-releasesEs分词器下载,版本选择:https://github.com/medcl/elasticsearch-analysis-ik/releasesapache所有项目文件的 镜像地址 :http://archive.apache.org/dist/Maven官网...原创 2019-01-03 18:17:46 · 147 阅读 · 0 评论