大数据
Crazy丶魂仔_
There is much opportunity for anyone willing to dedicate himself to his labors.
付出努力的人才有机会出人头地。
展开
-
MySQL学习推荐
https://jeames.blog.csdn.net/article/details/123963994?spm=1001.2014.3001.5502原创 2022-04-07 11:35:13 · 546 阅读 · 0 评论 -
CHD各组件版本
在官网下载Scala的时候,下载了很多次都下载失败,后来发现在浏览器种输入http://downloads.typesafe.com/scala/2.11.12/scala-2.11.12.msi就可以很快的下载下来了。版本号都可以更改。CHD组件版本查询https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_62_packaging.html...原创 2020-11-03 11:00:01 · 630 阅读 · 0 评论 -
solr4.x的kerberos认证
public static void loginSolr(String username,String password) { HttpClientUtil.setConfigurer(new PreemptiveBasicAuthConfigurer()); ModifiableSolrParams params = new ModifiableSolr...原创 2019-12-20 11:09:10 · 304 阅读 · 2 评论 -
布隆过滤器
布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。如果想要判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路. 但是随着集合中元素的增...原创 2019-04-02 09:39:21 · 128 阅读 · 0 评论 -
广播变量和累加器的使用场景
广播变量对于经常用到变量值,在分布式计算当中,多个点检task一定会多次请求这个变量就会产生大量网络IO,会影响效率,这时就可以使用广播变量的方式将数据广播到对应的Exector端,之后在使用该变量时就可以直接向本机获取该值计算即可。优点:不用从Driver端拉去数据了,也不用从其他节点拉取数据了,只需要从自己的Exector端获取数据就可以了,减少网络IO,提高运行效率。缺点:数据一旦广播...原创 2019-04-09 21:10:36 · 543 阅读 · 0 评论 -
HBase操作
HBase导出HFile数据并压缩hbase org.apache.hadoop.hbase.mapreduce.Export -D mapreduce.output.fileoutputformat.compress=true -D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.Gz...原创 2019-08-08 18:32:18 · 192 阅读 · 0 评论 -
Hive的优化
首先是表的优化:1.当数据量比较大的时候常用的手段就是拆分表,大表拆小表,分区表,临时表,外部表。2.尽量小表join大表,要把数据量小的表放在join的左边,先进行缓存,这样减少表join的时候内存的消耗量。好的模型设计事半功倍。减少job个数。自己动手写sql解决数据倾斜问题是个不错的选择。set hive.groupby.skwindata=true;对小文件进行合并,是行至游戏...原创 2019-03-18 23:57:11 · 198 阅读 · 0 评论 -
Kafka详解
消息队列内部实现原理为什么需要消息队列?解耦:允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。利于扩展和维护冗余:消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列采用的“插入-获取-删除”范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。扩展...原创 2019-03-08 00:06:36 · 512 阅读 · 0 评论 -
Kafka常见问题
1. 如果想消费已经被消费过的数据,如何实现?consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。原因:消费者消费了数据...原创 2019-03-06 19:54:26 · 1701 阅读 · 2 评论 -
Scala集合和数组
集合可变集合,不可变集合可变集合,可扩展、添加元素、删除、修改不可变集合,可以模拟添加、删除1.区别:A (1,2,3) 不可变集合=> 模拟添加元素4,生成一个新的集合(1,2,3,4) 集合A不变A (1,2,3) 可变集合=> 添加元素4,集合A变成(1,2,3,4)2.使用时选择,使用可变集合还是使用不可变集合。首选不可变集合。效率高,占用的存储空间更少3.线...原创 2019-02-12 17:01:30 · 277 阅读 · 0 评论 -
RPC通信
远程过程调用,可以通过网络远程计算机请求服务,不需要关注底层网络协议实现,通常请求从客户机发起,服务程序由服务器提供特点:RPC采用C/S模式客户端发送一个带有参数的请求信息到服务端服务器端根据发送过来的参数调用相应的程序,将结果发送回客户端客户端接受到结果后继续运行透明性:对于用户来说,远程调用其他机器上的程序,和调用本地方法一样高性能:能够并发处理多个来自客户端的请求可控制...原创 2019-02-18 19:17:36 · 316 阅读 · 0 评论 -
Scala集合
map里面存放的键值对,且键唯一。package ScalaStudy_day02import scala.collection.immutable.HashMapimport scala.collection.mutableobject MapDemo { def main(args: Array[String]): Unit = { // 创建map //...原创 2019-02-13 13:05:12 · 130 阅读 · 0 评论 -
Scala编写分析代码的逻辑实现
方法一:package ScalaStudy_day02object WordCount { def main(args: Array[String]): Unit = { val lines = List("hello python", "hello java", "hello scala", "hello c++ and scala")原创 2019-02-13 16:38:38 · 308 阅读 · 0 评论 -
Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$scope()Lscala/xml/TopScope$;
Exception in thread "main" java.lang.NoSuchMethodError: scala.Predef$.$scope()Lscala/xml/TopScope$; at org.apache.spark.ui.jobs.AllJobsPage.<init>(AllJobsPage.scala:39) at org.apache.spark.ui....原创 2019-02-19 22:39:58 · 1491 阅读 · 0 评论 -
Spark启动时出现Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configur
$ sbin/start-all.sh starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/spark-1.6.0-cdh5.13.2/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-bigdata.outfailed to launc...原创 2019-02-20 00:41:08 · 11469 阅读 · 1 评论 -
Exception in thread "dispatcher-event-loop-1" java.lang.NoClassDefFoundError: com/fasterxml/jackson/
启动Spark时(CDH版本较常见),报如下错误:19/02/20 00:20:33 INFO StandaloneRestServer: Started REST server for submitting applications on port 6066Exception in thread "dispatcher-event-loop-1" java.lang.NoClassDefFo...原创 2019-02-20 00:48:17 · 4913 阅读 · 6 评论 -
Spark的JDBC编写
package Spark_day03import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object JdbcRDD1 { def main(args: Array[String]): Unit = {...原创 2019-02-25 17:35:59 · 226 阅读 · 0 评论 -
Spark计算模型
一、什么是RDDRDD(Resilient Distributed Dateset)叫做分布式弹性数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD之间存在依赖关系,可进行恢复,RDD代表的数据集可以缓存,以便于加速后面的RDD计算,加快效率。RDD允许用户在执行多个查询时显式地将工...原创 2019-02-21 10:26:26 · 523 阅读 · 0 评论 -
java.lang.RuntimeException: HRegionServer Aborted问题
2018-10-20 20:38:01,799 INFO [regionserver/linux02/192.168.3.21:16020] regionserver.HRegionServer: STOPPED: Unhandled: org.apache.hadoop.hbase.ClockOutOfSyncException: Server linux02,16020,1540039076...原创 2019-02-12 10:46:56 · 4839 阅读 · 1 评论