程序员小李的开发路-CSDN博客

原创 Flink动态读取Mysql配置程序

这里通过构造MysqlConfigResource来进行创建广播流。以上就是读取mysql数据，这里很简单只是用了一个循环来轮训读取。以上是配置及maven信息。

2023-10-19 10:44:12 696

原创基于Flume + ElasticSearch + Pyhton的股票信息爬虫

本文将通过抓取股票涨幅信息并落入Es进行数据准备工作。

2023-10-19 10:14:33 835

val lines: RDD[String] = sparkContext.textFile(args(0)) 我们通过 sparkContext.textFile来读取hdfs中某一数据正常来说，应该是有几个文件就创建几个分区然而我们dubug的时候发现，有时候3个文件却创建了4个分区其实这是由于spark中对于hdfs分片数据拉取的源码首先我们在用testFile时，若不指定分区数量，则默认使用最小值=2 long goalSize = totalSize / (long)(num.

2020-05-11 21:03:38 714

原创 Spark RDD 分组统计案例

题目1.在所有的老师中求出最受欢迎的老师Top32.求每个学科中最受欢迎老师的top3（至少用2到三种方式实现）数据内容http://bigdata.edu360.cn/laozhanghttp://bigdata.edu360.cn/laozhanghttp://bigdata.edu360.cn/laozhaohttp://bigdata.edu360.cn/laozhaohttp://bigdata.edu360.cn/laozhaohttp://bigdata.edu360.c.

2020-05-11 20:49:31 2914

原创 Scala之 WordCount

object WordCountByScala { val arr = Array("hello tom and cat", "hello boy and girl") def main(args: Array[String]): Unit = { val r1: Array[Array[String]] = arr.map(_.split(" ")) val r2: A...

2020-05-04 19:37:08 251

原创 Kafka、Flume、Storm 结合学习案例

storm drpc JavaAPI调用报错 conf初始化错误解决如下Map config = Utils.readDefaultConfig();Kafka、Flume、Storm 结合学习案例flume 写入 kafka， storm作为kafka消费者处理消息，处理完再作为生产者给kafka写入消息flume 配置部分使用远程调用flume 即avro source传入k...

2020-05-02 10:06:09 1010

原创大数据学习之常用web端口号记录

大数据学习之常用web端口号记录namenode : centos01:50070yarn: centos01:8088jobhistory: centos01:19888hiveServer2: centos01:10020hbase: centos01:16010es: centos01:9200es-head: centos01:9300kibana: centos...

2020-04-25 00:11:53 277

原创 ES集群安装以及HEAD安装指导

es集群安装指导不能使用root！1.tar -zxvf elasticsearch-6.4.2.tar.gz -C /opt/modules/2. 测试运行 /opt/modules/elasticsearch-6.4.2/bin/elasticsearch （不要-d 需要看一下日志）发现错误—基本错误，linux的配置问题修改配置如下sudo vi /etc/securit...

2020-04-24 17:50:09 252

原创 mapreduce工作详情

再附上一张图便于理解task工作之缓冲区详解https://blog.csdn.net/lfdanding/article/details/51412591

2020-04-19 21:35:58 169

原创在windows本地的Idea上运行mapreduce

mapreduce WIndows 本地测试要有Java环境下载解压Hadoophttp://www.apache.org/dyn/closer.cgi/hadoop/commonhadoop-2.8.5.tar.gz 点右键“解压到hadoop-2.8.5”遇到的第一个坑 -----------解压失败，无法创建符号链接，可能需要以管理器身份运行winrar，解决：start w...

2020-04-18 22:50:39 1487

原创 hbase的scan

Scan scan = new Scan(“row0”.getBytes(), “row99”.getBytes());遍历row0至row98的数据要想遍历到99Scan scan = new Scan(“row0”.getBytes(), “row999/0”.getBytes());

2020-04-14 20:01:28 241

原创无限循环packet:: clientPath:null serverPath:null finished:fa

HBase的NoSuchMethodError:org.apache.hadoop.net.NetUtils.getInputStream异常解决办法hbase和hadoop包版本不同改一下出现这个问题经常附带无限循环packet:: clientPath:null serverPath:null finished:fa等一段时间后就会有这个bug抛出...

2020-04-14 20:00:06 1765 1

原创 Hive学习之常见问题(二)

Hive 表进行关联查询如何解决长尾和数据倾斜问题数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导...

2020-04-10 22:14:46 468

hiveUDF 报错

hadoop MR提交任务时，报: Invalid signature file digest for Manifest main attributes或者hbase shell ，hive 命令行进不去可能有人对大数据jar 进行了修改这是因为需要将jar 里的META-INF/.RSA META-INF/.DSA META-INF/*.SF 删除删除命令zip -d .jar M...

2020-04-09 23:12:19 421

原创 Hive学习之常见问题

HiveSQL 的原理：我们都知道 HiveSQL 会被翻译成 MapReduce 任务执行，那么一条 SQL 是如何翻译成MapReduce 的？详细！需要多看几遍才能看懂https://www.aboutyun.com/thread-20461-1-1.htmlHive 和普通关系型数据库有什么区别？1.查询语言不同：hive是hql语言，mysql是sql语句；2.数据存储位置不...

2020-04-09 22:51:20 1303 1

原创 Hive 学习小记(二)

因为hive的数据存储在hdfs中，添加数据实际上完成了mr的任务，所以需要先启动hdfs集群和yarn集群！！使用BeeLine Cli的时候，如果要进行insert等操作，需要现在集群中修改用户权限–在hiveserver服务所在的虚拟机的hadoop/etc/hadoop/core-site.xml中添加 <property> <name>hadoo...

2020-04-05 23:49:12 208

原创 JAVA程序员可以用的一些工具

给大家推荐一些开发的工具Java开发系列-IntelliJ IDEA 插件IntelliJ IDEA IntelliJ IDEA IntelliJ IDEA 毫无疑问前段日子集中找了一些idea的插件，用了一段时间之后推荐一些个人感觉有用的Free Mybatis plugin能够连接mapper接口和mapper.xml文件Lombok这个毫无疑问吧，具体有啥用百度吧Al...

2020-04-05 18:26:20 224

原创 Hive学习小记

开始学习 Hive 啦把Hive的内嵌、本地、远程三个模式配了一遍，基本上没有遇到大的问题需要初始化元数据这个点比较容易忘本地、远程模式需要用mysql，顺便回顾了一下mysql的安装配置过程，发现centos7直接装yum mysql有问题，后通过https://www.jianshu.com/p/3d657516882d 完成配置安装~ 记得开启远程连接。hive因为用的是sql，所...

2020-04-03 23:58:23 254

原创 Java程序员学习大数据之HBASE(二)

HBase数据flush刷写过程在hbase-default.xml配置文件中有这么几项配置（见下面），只要regionserver其中某一个MemStore满足第一点或者第二点，都会进行regionserver级别的flush，即所有MemStore都要flush；而满足第三点的，就会进行HRegion级别的flush，即某个HRegion下的所有MemStore都要flush。hbase...

2020-04-02 23:17:29 386 1

原创 Java程序员学习大数据之HBASE

Java程序员学习大数据之HBASE1 什么是HBase1.1 列式数据库与行式数据库1.2 Hbase对表处理的特点1.3 HBase与RDBMS的区别1.4 HBase的基本结构1.5 HBase的数据模型2 HBase的集群架构2.1 HBase系统架构2.2 WAL机制3 Hbase 的读写流程3.1 数据路由3.2 写过程3.2.1 合并与分裂过程3.2.2 分裂过程meta表变化创建...

2020-04-01 16:34:04 766

程序员小李的博客