大数据_wunanliu的博客-CSDN博客

大数据

关注

文章平均质量分 61

关注数：文章数：36 文章阅读量：70613 文章收藏量：188

作者: wunanliu

看成败，人生豪迈

展开

SparkStreaming中动态广播变量的使用【Java版本】

当前问题产生已经在2年前发生，当前博客只是为了记录当时的情况。

原创 2022-07-13 16:59:16 · 3157 阅读 · 0 评论
SparkStreaming实时消费Kafka数据，批量写入Mysql数据库，Java版本

SparkStreaming实时消费Kafka数据，批量写入Mysql数据库，Java版本

原创 2022-07-04 16:32:36 · 1658 阅读 · 0 评论
SparkStreaming消费Kafka数据，实时批量插入ElasticSearch，Java版本

SparkStreaming消费Kafka数据，实时批量插入ElasticSearch，Java版本

原创 2022-07-04 16:08:28 · 603 阅读 · 0 评论
SparkStreaming消费Kafka，数据实时写入Hbase集群，Java版本

SparkStreaming消费Kafka，数据实时写入Hbase集群，Java代码

原创 2022-07-03 20:34:49 · 855 阅读 · 0 评论
SparkStreaming消费Kafka数据，实时写入HDFS，Java版本

SparkStreaming消费Kafka数据入HDFS

原创 2022-07-03 20:06:27 · 1735 阅读 · 2 评论
SparkStreaming消费Kafka保证一次语义总结 Java代码

SparkStreaming消费Kafka，偏移量存储在Redis中

原创 2022-07-03 14:43:14 · 911 阅读 · 0 评论
Logstash实现MySql数据近实时同步ElasticSearch搜索服务

Mysql数据实时同步到ElasticSearch

原创 2022-07-01 16:35:19 · 1982 阅读 · 0 评论
SparkStreaming消费Kafka无法消费持续阻塞（无异常信息）

产生背景：由于工作需要，目前现有查询业务，其他厂商数据库无法支持，高效率的查询响应速度，于是和数据总线对接，实现接入数据，自己进行数据结构化处理。技术选型：SparkStreaming和Kafka和ElasticSearch本人集群：SparkStreaming 版本2.3，Kafka的Scala版本2.11-Kafka版本0.10.0.0（Kafka_2.11-0.10.0.0.jar）消息总线集群：Kafka总线版本，Kafka_2.10-0.10.2.1.jar由上述可...

原创 2022-04-28 17:20:20 · 2749 阅读 · 0 评论
CDH大数据平台内存交换，警告问题

前言博主在使用CDH大数据平台时发现，CDH长时间运行，Cloudera Manager管理页面在运行Spark任务时候经常会出现内存交换警告，前期博主直接忽略，毕竟不是什么大问题，后期发现如果长时间黄色警告不处理，会误导页面查看集群状态，并且交换空间所占用磁盘空间越来越大，并且警告越来越多，后续还会有从黄色变为红色异常等情况，后进入管理界面发现，CDH在安装时，Linux操作系统，有选择交换空间地址交给CDH内存不足情况下使用，测试发现手动释放会解决，管理界面警告问题（黄色警告，看着也不...

原创 2020-07-30 18:21:56 · 3979 阅读 · 1 评论
Hadoop大数据系列之NoSql海量数据库Hbase入门Shell篇（二）

Hbase的shell命令①、进入Hbase操作hbase shell说明：【搭建好了大数据平台前提下，直接在任何路径下（配置环境变量了）】我们看看HBase Shell的一些基本操作命令，列出了几个常用的HBase Shell命令，如下名称命令表达式创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名......

原创 2020-06-03 16:03:56 · 619 阅读 · 0 评论
Hadoop大数据系列之NoSql海量数据库Hbase详解原理篇（一）

Hbase的引言：一、什么是Hbase： hbase是Apache 组织开源的顶级项目 distributed, scalable, big data store 产品。 hbase是Google 的BigTable论文的开源实现。 hbase是基于Hadoop的一个NoSQL产品 Column类型的NoSQL。 hbase是Google BigTable的开源实现, 数据存储于Hdfs上。 hbase运行亿级别数据查询时，效率可...

原创 2020-06-01 15:37:38 · 2999 阅读 · 0 评论
Hadoop大数据平台数据迁移方案（跨集群）

1、准备大数据平台迁移工作由于公司项目业务需求，需要将两个项目的大数据平台进行迁移，业务数据进行跨平台平移。前提（大数据平台之间网络互通）第一种方案（Linux原生远程Shell命令拷贝）①将Hive数据通过MR写到其他Linux文件夹中：hive> insert overwrite local directory '/usr/test' select * from test;上述是通过MR任务计算！② 通过Linux原生SCP拷贝将本机文件复制到远程服...

原创 2020-05-11 17:12:15 · 4116 阅读 · 0 评论
FastDFS分布式集群搭建，详细教学从入门到使用（生产环境下）

一、FastDFS是什么？ FastDFS是一个开源的轻量级分布式文件系统，它对文件进行管理，功能包括：文件存储、文件同步、文件访问（文件上传、文件下载）等，解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务，如相册网站、视频网站等等。FastDFS为互联网量身定制，充分考虑了冗余备份、负载均衡、线性扩容等机制，并注重高可用、高性能等指标，使用FastDFS很容易...

原创 2020-02-05 20:49:03 · 3519 阅读 · 2 评论
Cloudera Manager，离线搭建CDH大数据平台，版本5.15.2

Cloudera Manager及CDH版本安装全程记录大家都知道，Apache Hadoop的配置很繁琐，而且很零散，为此Cloudera公司提供了Clouder Manager工具，而且还封装了Apache Hadoop,flume,spark，hive,hbase等大数据产品形成自己特色的CDH产品，再使用CM进行安装，很大程度上方便了集群的搭建，并提供了集群的监控功能...

原创 2019-10-21 20:14:12 · 1021 阅读 · 0 评论
【白话】10分钟看懂Docker和K8S是什么☺

2010年，几个搞IT的年轻人，在美国旧金山成立了一家名叫 dotCloud 的公司这家公司主要提供基于PaaS的云计算技术服务。具体来说，是和LXC有关的容器技术LXC，就是Linux容器虚拟技术（Linux container）后来，dotCloud公司将自己的容器技术进行了简化和标准化，并命名为——DockerDocker技术诞生之后，并没有引起行业的关注。而dot...

原创 2019-07-22 13:28:52 · 458 阅读 · 0 评论
【Spring Boot Web容器集成调用Hbase】 java.io.IOException: No FileSystem for scheme : hdfs

Maven下项目使用没有任何问题，但是使用Spring boot 项目就出问题，怀疑是容器问题，查阅了相当多的资料，所有的大部分解决方案都是拷贝core-site.xml到本地项目中，然后将下列配置添加到core-site.xml配置文件中，然后重新编译项目，然后再进行PostMan访问，发现还是不行，同样报错第一种，解决方案来源：https://blog.csdn.net/dufufd/a...

原创 2019-07-17 18:17:08 · 982 阅读 · 0 评论
Could not locate executable null\bin\winutils.exe in the Hadoop binaries 【使用Spring Boot 项目操作Hbase报错】

使用Maven的Java项目，连接Hbase服务器不会报错，但是将相同的代码，拷贝到Spring Boot项目中就会报错，怀疑过是不是容器出了问题。Could not locate executable null\bin\winutils.exe in the Hadoop binaries百度查询各种答案，发现网络博客口径普遍都是说缺少Hadoop的系统环境变量，如果下载的Hado...

原创 2019-07-17 14:32:08 · 1169 阅读 · 0 评论
Apache开源顶级项目Ambari搭建HDP大数据平台

搭建Hortonworks Data Platform大数据平台Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。目前最新的发布版本是 2.5.1。就 Ambari 的作用来说，就是创建、管理、监视Hadoop 的集群，但是这里的 Hadoop 是广义，包括的是 Hadoop 整个生态圈（例如 Hive，H...

原创 2019-07-16 15:57:08 · 5149 阅读 · 4 评论
Hbase、Elasticsearch，Spring Boot Swarger 整合中Jar包冲突问题

问题背景在大数据平台中，项目搭建需要使用es和HBASE搭建数据查询接口，整合的过程中出现jar包冲突的bug :com.google.common.base.Stopwatch.()V from class org.apache.hadoop.hbase.zookeeper.MetaTableLocatororg.apache.hadoop.hbase.DoNotRetryIOExcep...

原创 2019-07-18 14:44:06 · 760 阅读 · 0 评论
ElasticSerach的6.0.1安装和Kinbana安装

ElasticSerach：安装前期工作 ①：安装JDK-1.8（下载解压，配置profile，很简单就不赘述了）,Centos 7.0 ②：下载ElasticSerach安装包，自行选择版本（本人选择6.0.1），下载地址：https://www.elastic.co/downloads/past-releases ③：下载ElasticSerach的IK分词器安装包，下载地址...

原创 2019-01-02 14:17:39 · 1594 阅读 · 0 评论
ElasticSearch查询总结

一、Es Java API方法6.0.1查询总条数方法TransportClient client = ElasticSearchUtil.getClient("rbc.es","192.168.30.230", 9300);SearchResponse response = client.prepareSearch("liuwunan").setTypes("doc").get();lo...

原创 2019-01-17 15:52:28 · 819 阅读 · 0 评论
Sqoop 工具进行数据双向导入

一、Sqoop将Mysql数据导入到HDFSShell:实例sqoop import -m 1 --connect jdbc:mysql://192.168.1.1:3306/elens_oauth --username root --password 123456 --table rbc_traffic_radio_user_bak --target-dir /rbc_source/Tr...

原创 2019-01-15 16:37:45 · 199 阅读 · 1 评论
Hadoop的Hive数仓与ElasticSerach进行集成

Hadoop集群的版本：2.7.1 ElasticSerach集群版本：6.0.1启动Hive，启动ElasticSerach,去ElasticSerach官网下载：https://www.elastic.co/cn/downloads/...

原创 2019-01-15 17:09:35 · 568 阅读 · 0 评论
ElasticSearch 6.0.1 批量查询后修改的方法

第一种方法：批量查询和修改POST 192.168.1.201:9200/liuwunan/doc/_update_by_query{ "script": { "source": "ctx._source['sourcetype_code']='10300010003';" }, "query": { "term": { "sourcetype_name": "交通台...

原创 2019-01-21 14:11:33 · 633 阅读 · 0 评论
ElasticSerach6.0.1出现 None of the configured nodes are available

记使用ElasticSerach 6.01使用阿里云服务器的一次大坑如果是使用阿里云服务器，启动嗅探功能如果是在测试环境下【使用IDEA进行调试】，最好关闭自动嗅探功能，此处设计到内外网IP问题但是es 嗅探的却是内网ip,我们连接的是外网ip,所以连接失败。当ES服务器监听使用内网服务器IP而访问使用外网IP时，不要使用client.transport.sniff为true，在自...

原创 2019-01-23 14:21:33 · 315 阅读 · 0 评论
Hive的数据去重Group by Having count()等方法

查询出当前表中，电话号码出现数次数为两次的数据！并且删除掉重复多余的数据，只留下一条数据！having count and group byselect mobile,count(1)cnt from rbc_audience_users group by mobile having count(mobile) >1查询出rbc_audience_users表中 mobile大于一条...

原创 2019-01-31 11:43:22 · 8274 阅读 · 0 评论
Hive与ElasticSerach集成数据插入的坑

Hive与ElasticSerach集成必须要依赖外部的jar ,否则就是ClassNotFoundException第一种方法: 由于Hive与Es集成，需要第三方Jar，由于Hive和Es不属于同一组织，hive与Es 集成的jar，是第由ElasticSerach公司书写的，所以下载需要去ElasticSerach官网下载下载地址为：https://www.elastic.co...

原创 2019-02-27 15:32:34 · 619 阅读 · 2 评论
Hive与ElasticSerach 集成使用Java代码远程连接踩坑记........................

上一篇博客的地址：https://blog.csdn.net/weixin_38822045/article/details/87973419第一：在上一篇博客解决了，Hive与ElasticSerach在Linux中集成出现的 ClassNotFoundException之后，通过Beeline操作之后，Beeline.distro脚本里面添加了"$bin"/hive --ser...

原创 2019-02-28 12:43:02 · 346 阅读 · 0 评论
Hive多表连接异常，java.lang.ArrayIndexOutOfBounds ：140，官方Bug，在3.0.0版本已经被解决了

后续官方解决方案：https://issues.apache.org/jira/browse/HIVE-14564异常详细情况2019-02-28 16:33:44,429 INFO [RMCommunicator Allocator] org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator: Got allocated ...

原创 2019-03-01 10:20:45 · 5282 阅读 · 0 评论
Hadoop运行离线任务，Hive跑MR任务时候，出现Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded

一、首先抛出异常问题二、引发问题原因：表连接，左表数据100W，右表数据 300W，进行左右表进行表关联，进行Count进行数据统计，等待运行结果！！！分析问题，查看上述运行流程，即可了解上述异常，查看详细日志信息，URL：即可见到首页出现的问题三、查看页面可见，有如下图片四、由上图和图一可知，此MR程序为 Map端出错，出错程序问题问内存不足，初步怀疑为 Ma...

原创 2019-03-29 16:02:14 · 5093 阅读 · 0 评论
ElasticSerach 6.0.1 测试IK分词器和拼音分词器是否生效

posthttp://192.168.1.129:9200/_analyze

原创 2019-04-02 11:18:09 · 958 阅读 · 0 评论
ElasticSerach6.0.1测试拼音分词器，IK分词器，并且次测试语法

第一步：安装ElasticSearch 6.0.1 下载ElasticSerach,下载IK分词器由于IK和ElasticSerach已经是编译好的，不需要编译，直接在安装解压修改配置文件即可详情请见另一篇安装博客：https://blog.csdn.net/weixin_38822045/article/details/85612242第二步：下载拼音分词器由于拼音分词器并非编译...

原创 2019-04-02 13:47:26 · 2052 阅读 · 1 评论
ElasticSearch6.0.1 拼音搜索，并且高亮显示结果 —6.X版本

业务需求：公司项目需要搜索实现拼音搜索，中文搜索，并且需要支持拼音中文混合搜索，同时支持简拼搜索，并且高亮搜索字段的结果在公司之前的业务需求下，发现的一个拼音和中文混合搜索的时候，实际使用拼音搜索并且返回结果进行高亮查询的时候，发现的一个问题，高亮标签无法使用，参考百度，CSDN，ElasticSerach中文社区，发现提出当前问题的人很多，基本没有一个好的解决方案，至此，我写了这一篇博...

原创 2019-04-15 10:04:00 · 4274 阅读 · 4 评论
Linux的Crontab的定时任务编写

第一步：安装CronTab此处省略第二步：编辑CronTab 书写定时配置crontab -e每天早上8点执行0 8 * * * /mnt/disk1/Other/PushDataServer/Strat_Push_Data.sh每天下午14点执行0 14 * * * /mnt/disk1/Other/PushDataServer/Strat_Push_Data.sh...

原创 2019-06-12 14:10:40 · 335 阅读 · 0 评论
Kafka从入门到基础使用

一、消息队列介绍和kafka1、消息队列（MQ:Message Quene）概念：存储消息（数据）的容器。容器具有队列的特点（按照顺序先进先出）FIFO。2、消息队列中数据的处理模型：2.2、传统数据的处理模型2.3、消息队列中数据的处理模型（发邮件）3、消息队列的核心组件及其运行模式：3.1、核心组件： producer...

原创 2019-07-05 19:11:37 · 687 阅读 · 0 评论
技术网站备份

Es 下载，版本选择：https://www.elastic.co/downloads/past-releasesEs分词器下载，版本选择：https://github.com/medcl/elasticsearch-analysis-ik/releasesapache所有项目文件的镜像地址 :http://archive.apache.org/dist/Maven官网...

原创 2019-01-03 18:17:46 · 147 阅读 · 0 评论

大数据

作者: wunanliu

SparkStreaming中动态广播变量的使用【Java版本】

SparkStreaming实时消费Kafka数据，批量写入Mysql数据库，Java版本

SparkStreaming消费Kafka数据，实时批量插入ElasticSearch，Java版本

SparkStreaming消费Kafka，数据实时写入Hbase集群，Java版本

SparkStreaming消费Kafka数据，实时写入HDFS，Java版本

SparkStreaming消费Kafka保证一次语义总结 Java代码

Logstash实现MySql数据近实时同步ElasticSearch搜索服务

SparkStreaming消费Kafka无法消费持续阻塞（无异常信息）

CDH大数据平台内存交换，警告问题

Hadoop大数据系列之NoSql海量数据库Hbase入门Shell篇（二）

Hadoop大数据系列之NoSql海量数据库Hbase详解原理篇（一）

Hadoop大数据平台数据迁移方案（跨集群）

FastDFS分布式集群搭建，详细教学从入门到使用（生产环境下）

Cloudera Manager，离线搭建CDH大数据平台，版本5.15.2

【白话】10分钟看懂Docker和K8S是什么☺

【Spring Boot Web容器集成调用Hbase】 java.io.IOException: No FileSystem for scheme : hdfs

Could not locate executable null\bin\winutils.exe in the Hadoop binaries 【使用Spring Boot 项目操作Hbase报错】

Apache开源顶级项目Ambari搭建HDP大数据平台

Hbase、Elasticsearch，Spring Boot Swarger 整合中Jar包冲突问题

ElasticSerach的6.0.1安装和Kinbana安装

ElasticSearch查询总结

Sqoop 工具进行数据双向导入

Hadoop的Hive数仓与ElasticSerach进行集成

ElasticSearch 6.0.1 批量查询后修改的方法

ElasticSerach6.0.1出现 None of the configured nodes are available

Hive的数据去重Group by Having count()等方法

Hive与ElasticSerach集成数据插入的坑

Hive与ElasticSerach 集成 使用Java代码远程连接踩坑记........................

Hive多表连接异常，java.lang.ArrayIndexOutOfBounds ：140，官方Bug，在3.0.0版本已经被解决了

Hadoop运行离线任务，Hive跑MR任务时候，出现Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded

ElasticSerach 6.0.1 测试IK分词器和拼音分词器是否生效

ElasticSerach6.0.1测试拼音分词器，IK分词器，并且次测试语法

ElasticSearch6.0.1 拼音搜索，并且高亮显示结果 —6.X版本

Linux的Crontab的定时任务编写

Kafka从入门到基础使用

技术网站备份

Hive与ElasticSerach 集成使用Java代码远程连接踩坑记........................