![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 88
liuhehe123
这个作者很懒,什么都没留下…
展开
-
【ClickHouse基础篇】
【ClickHouse基础篇】ClickHouse第一章 ClickHouse的基础1.1 ClickHouse的特点1.1.1 列式存储第一章 ClickHouse的基础1.1 ClickHouse的特点1.1.1 列式存储比如以下面的表为例:IDNameAge1张三182李四223王五341)采用行式存储时,数据在磁盘上的存储结构为:...原创 2022-04-10 18:17:35 · 810 阅读 · 0 评论 -
HBASE架构
HBASE架构参考: HBASE深度解析原创 2020-06-10 14:00:09 · 121 阅读 · 0 评论 -
02 kafka的producer端开发
kafka 的producer端开发主要涉及到一下几个方面Producer 概要以及构造一个producer实例进行介绍重要参数消息的分区机制消息的序列化producer端 —— broker端的消息丢失配置消息压缩多线程处理直接进入主题:Producer 概要以及构造一个producer实例进行介绍重要参数勤学好问:Producer是用来干啥的? 从上...原创 2020-04-12 10:40:11 · 256 阅读 · 0 评论 -
01 Kafka的简单介绍
kafka在设计之初就考虑的问题吞吐量/延时消息持久化负载均衡和持久化伸缩性先说吞吐量问题:kafka是如何做到高吞吐量和低延时的呢? kafka的写入操作是很快的,这主要得益于它对磁盘的使用方法不同。虽然kafka会持久化所有数据到磁盘,但本质上每次写入操作其实都只是把数据写入到操作系统的页缓存中,然后由操作系统自行决定什么时候把页缓存中的数据写回磁盘。...原创 2020-04-10 11:46:00 · 183 阅读 · 0 评论 -
Hue连接MySQL数据库问题
使用Hue连接mysql数据库 其中 hive hbase hue版本都是CDH5.3.0 ,结果出现连不上数据库,查了好多都是说 或者 json单引号问题, [[[mysql]]]前面两个注释没放开之类,这些我都没有。。。 最后,将Hue版本从CDH5.3.0更换为5.3.6 问题解决。。。又是版本惹的祸。。。不过这里是MySQL连接的问题 ,其他同版...原创 2019-07-17 21:34:56 · 1053 阅读 · 0 评论 -
Matplotlib画图之基本图表绘制
1、Series 与 DataFrame绘图首先来讲讲Series绘图, 即 我们使用 ts = pd.Series(...) 直接调用ts.plot进行画图plt.plot(kind='line', ax=None, figsize=None, use_index=True, title=None, grid=None, legend=False, style=None, log...原创 2019-06-03 15:36:52 · 1219 阅读 · 0 评论 -
虚拟机安装Centos6.9遇到的网络配置问题
我安装了四个centos 服务器版 其中 后面三个是克隆第一个的。 主要是配置网络。虚拟机网络配置:hdp-01的网络配置:由于hdp-02/03/04都是克隆的hdp-01的 所以后面三个的网络需要重新配置具体配置如下:拿hdp-0...原创 2019-03-16 22:10:26 · 782 阅读 · 0 评论 -
Spark textFile在读取数据遭遇empty string或者ArrayIndexOutOfBoundsException: 2
Spark textFile在读取数据遭遇empty string或者ArrayIndexOutOfBoundsException: 2在使用spark textFile读取一个大数据文本 有3万多行,然而在处理过程中 即使用collect().foreach(println)进行打印输出,爆出empty string错误,经过排查,发现并不是存在空行,而是某一行数据存在空值,由于在处理过程中,将...原创 2019-03-04 16:38:28 · 1173 阅读 · 0 评论 -
运行SparkStreaming的NetworkWordCount实例出错:Error connecting to localhost:9999 java.net.ConnectException:
运行SparkStreaming的NetworkWordCount实例出错:Error connecting to localhost:9999 java.net.ConnectException: Connection refused 解决办法一、背景首先按照Spark的官方文档来运行此实例,具体方法参见这里,当运行命令$ nc -lk 9999开启端口后,再运行命令$ ./bin/ru...转载 2019-03-06 18:14:04 · 1037 阅读 · 0 评论 -
spark shell 启动 出现org.apache.spark.SparkException: Found both spark.executor.extraClassPath and SPARK
启动spark shell报错:Setting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).19/02/26 16:56:07 WARN util.NativeCodeLoader: Unable...原创 2019-02-26 18:19:38 · 3668 阅读 · 0 评论 -
IDEA+SBT+Spark+MySQL SparkSQL连接mysql数据库驱动依赖问题(略坑)
spark-shell中并不会遭遇这么多问题 这是在IDEA中sbt依赖问题。1、导入包问题import java.util.Propertiesimport org.apache.spark.sqlimport org.apache.spark.sql.types._import org.apache.spark.sql.Rowimport org.apache.spark...原创 2019-02-26 16:26:56 · 1767 阅读 · 0 评论 -
Hive踩坑之The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH,找不到驱动
在mysql中创建hive数据库,并允许hive接入mysql> create database hive; #这个hive数据库与hive-site.xml中localhost:3306/hive的hive对应,用来保存hive元数据mysql> grant all on *.* to hive@localhost identified by 'hive'; #将所...原创 2019-02-26 16:13:01 · 6180 阅读 · 4 评论 -
IDEA下sparkMLlib出现java.lang.AbstractMethodError错误
在写sparkMLlib程序的时候 出现java.lang.AbstractMethodError错误,at org.apache.spark.internal.Logging$class.initializeLogIfNecessary(Logging.scala:99)。。。balabalabala这个一般是包的版本出现了问题,我当时用的包 spark-mllib 2.1....原创 2019-03-01 10:24:12 · 681 阅读 · 2 评论 -
关于scala占位符_的一点理解
在看到 scala> val f = (_:Int) + (_:Int)f: (Int, Int) => Int = $$Lambda$1108/2058316797@4a8bf1dc scala> f(1,2)res5: Int = 3有点不太明白占位符的使用。在scala REPL测试了下:scala> val f2 = (_:Int) + (_...原创 2019-02-18 21:02:20 · 1654 阅读 · 0 评论 -
Spark读取本地文件问题
Spark 读取本地文件问题网上给出的多是下面两种方案 解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。 解决方式2:直接将数据文件上传到hdfs,达到数据共享。(强烈推荐,比格更高更专业) 不过多是将文件发到hdfs,明明记得可以读取本地文件,后来在林子雨老师厦门大学大数据实验室博客上找到解决办法:本地文件数据读写textFile ...原创 2019-01-14 18:51:00 · 13942 阅读 · 11 评论 -
解决Hadoop集群环境启动后Live Nodes只有一个的问题
网上搜了很多解决方案,针对我遇到的问题目前有效的解决方案如下:删除DataNode的所有资料,我的做法是删除hadoop下dfs目录和tmp目录【sudo rm -r dfs】,然后重新格式化 【hdfs namenode -format】再启动 【sbin/start-all.sh】master:界面 ...原创 2019-01-08 20:41:10 · 5608 阅读 · 2 评论