大数据
文章平均质量分 72
humanity11
这个作者很懒,什么都没留下…
展开
-
KUDU 事务
kudu 事务翻译 2023-03-07 00:28:03 · 200 阅读 · 0 评论 -
spark 主要作者之一毕业论文(大型集群上的快速和通用数据处理架构)
spark论文原创 2022-04-16 22:40:52 · 2226 阅读 · 0 评论 -
大数据实时依旧是一项很难的技术
大数据实时是一项很难的技术原创 2022-03-10 23:26:22 · 5388 阅读 · 6 评论 -
分布式一致性
分布式一致性原创 2022-02-17 17:32:44 · 1150 阅读 · 0 评论 -
clickhouse HA 及性能测试
目录需求说明逻辑架构图物体架构图测试性能测试指标说明:sql语句准备环境准备测试结论报告(1) HA测试,停止某台服务,对外服务是否正常访问(2)spark 以(5/10/20/40)个并发模拟写数据时,读性能(读50/100/150并发)测试2.1 写并发测试2.2 qps并发性能测试(3)租户划分使用场景(4)缓存结论需求说明 针对clickhouse作为生产环境的底层数据存储,为了能保证生产环境服务稳定可用,做如下性能测试:..原创 2022-02-17 10:49:40 · 4209 阅读 · 7 评论 -
sparkSql中的那些函数
对于sparksql的应用企业基本只要属于大数据相关的互联网公司都会安装和使用spark,而sparksql对于对于那些不熟悉sparkapi的人更是一件利器,这对于熟悉mysql的人如虎添翼,好了,废话不多说,我们看下sparksql中的那些很少被用到却非常有用的函数。lit:Creates a [[Column]] of literal value.创建一个字面 值得列;eg:df.se...原创 2020-02-19 22:34:44 · 561 阅读 · 0 评论 -
分布式锁之zookeeper
引言在上一篇文章分布式事务之数据库锁中,我们明白了基于mysql数据库行锁能完成分布式事务,同时在最后留了个问题:当某个app加完行锁后因为某种原因非正常退出,此时该app并未释放行锁,导致其他app没法获取锁,该如何处理?接下来这篇文章将针对这个问题提出我们的解决思路,即采用zookeeper实现分布式锁。解决方案在实现zookeeper的分布式锁前,先理解zookeeper的临时节...原创 2019-06-26 21:35:19 · 125 阅读 · 0 评论 -
分布式事务之数据库锁
问题描述最近有个项目功能需求是需要我们获取一条mysql的记录,对其处理,处理完后再写回es和mysql,然后更新该msyql记录,因为我们是多用户并发操作,在此处理过程中需要严格保证只容许一个线程一个时候占用。即需要在mysql和elasticsearch数据库间保证分布式数据的原子性。那该如何做呢?具体问题业务描述具体需求是mysql数据库中存在一张表学生游戏积分表,积分表的每条记...原创 2019-06-22 20:02:31 · 957 阅读 · 0 评论 -
高并发及负载均衡之分表分库
先从公司的最近的一个大数据项目谈起。最近公司有一个项目,设计到大量的数据,设计到数据的存储查询同时还需要保证高并发,那现在如何解决存储和负载均衡的问题?下面的文章将该问题结合目前的数据库,谈谈它们在存储和负载方面有哪些解决方案。为什么要分表分库首先是为什么要分表分库?试想假如我们是早期的创业团队,主要以软件开发功能为主,数据量不大,主要是一些客户业务方面的数据,大概10w至1000w,早期...原创 2019-05-29 22:01:20 · 754 阅读 · 0 评论 -
spark 运行模式解析
上篇文章讲解了spark submit的提交至spark 集群,但是spark 程序如何在集群中运行并未讲解,这篇文章将围绕spark运行在集群下不同模式讲解,并说明他们的区别是什么?通常我们spark 提交任务时都会使用如下命令:spark-submit --deploy-mode DEPLOY_MODE其中DEPLOY_MODE就是我们想要将程序运行在什么模式下。在上篇文章中我们...原创 2019-05-04 15:55:38 · 134 阅读 · 0 评论 -
Spark submit 启动流程解析
用户通过将spark程序打成jar包提交给spark集群,其中的入口是spark-summit,比如spark官方文档中运行WordCount程序:spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 \ --executor-memory 2G \ --...原创 2019-05-04 12:45:29 · 821 阅读 · 0 评论 -
Hive 表的连接
Hive表常用连接对于直接在mapReduce中用join相比,hive的好处是简化了繁琐的处理工作,hive表的连接操作就是如此,本文主要讲解hive的4中主要连接:内连接、外连接、半连接、map连接。我们用如下的sales,things表的数据来举例说明各种连接的作用,方便大家理解。 (图1 sales表) ...原创 2019-01-26 12:17:24 · 933 阅读 · 0 评论 -
kafka分布式爬虫系统-任务的发放
任务的发放任务发放应该是一个全局的总机,它主要和用户打交道,用来接收用户的请求,然后将用户的请求转换成机器能执行的任务。用户就不需要关心任务是如何发放的,只要将想要抓的网站或内容分配给总机即可。这里些问题需要考虑是:1.如何保证任务能有序的执行。2.保证断电了任务不丢失,来电了任务还能继续在原来的断点处执行。3.当用户如果发了几百万的任务,保证所有主机不崩溃。基于前面的3点,我想到如下解决方案...原创 2019-01-24 21:49:18 · 1507 阅读 · 0 评论 -
kafka的分布式爬虫系统
前言 几乎停顿了1年之久,很久没写博客了,一方面是在院里做项目太忙,另一方面是自己也在摸索大数据领域的技术,终于自己搭起来了个基于kafka的分布式爬虫程序,可以抓网站的图像了,不多说,先看抓的图像数据。目前存储在elastic中的图像记录条数为1.7亿条,用了13个节点,具体的图像数据存储在hbase中。抓取的数据量超过2T,并20台机器同时抓取保持每天800w条数据增长,每天这么...原创 2019-01-24 21:37:28 · 2312 阅读 · 0 评论 -
科比退役原因-数据分析
科比布莱恩特1996年进入NBA,至今在NBA已经是第20个年头了。从一个毛头小子,凭着坚韧的意志和努力的训练逐渐成为乔丹的接班人。职业生涯从"OK"组合的湖人王朝开始,到同奥尼尔关系破裂一个人独自带领湖人奋斗,直到再次拿下两连冠,科比已经是联盟当之无愧的第一人。直到现在37岁的科比“廉颇老矣”,宣布2015-2016赛季结束后退,这将是后乔丹的一个时代的结束,致敬科比!外界对科比的退役有原创 2017-12-18 19:30:51 · 1899 阅读 · 0 评论 -
大数据可视化-绘制景点热力图
(1)在上篇博客中向大家展示了,在国庆期间没出来看人海,于是宅在家弄了个景点热力图,回顾下图做出来的样子:(2)这篇文章的接下来将和大家分享技术的实现,并很乐意分享相关的源码和大家交流。1.前台部分,百度api的讲解,先参考下该demo地图显示部分,主要是调用了BMapLib包下的类HeatMapOverlay,该类相关的设置在demo中可以参考,不过本图数据是需要从后台获原创 2017-10-02 15:12:43 · 11363 阅读 · 13 评论 -
国庆去哪人少,大数据来告诉你
据人民网报道,国庆中秋旅游指南发布 国内旅游人数预估7.1亿人次!是的,你没有看错,我也没有写错,今年的出游人数就有这么多.很多人感叹:这哪是去看景,分明是看人!问:说了这么多,那你倒是快用大数据告诉我哪里人少?我好选择去人少的地方。答:来吧,一起看图好了,下面是根据60个热门城市,根据某网站卖出票价情况做的一个热力图:问:这图看起来直观,大概是怎样的实原创 2017-10-02 14:30:01 · 12816 阅读 · 0 评论 -
Random Forests预测森林植被类型
在Colorado北部,有一片森林,森林里中有多种类型的植被,有人已经将其大概总结出来了7种:1 - Spruce/Fir2 - Lodgepole Pine3 - Ponderosa Pine4 - Cottonwood/Willow5 - Aspen6 - Douglas-fir7 - Krummholz如果将它们的特征划,可以划分成12种,在这12中类型中,其原创 2017-10-07 15:39:57 · 1711 阅读 · 0 评论