自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

翻译 数据湖溯源追踪系统(Crossing Analytics Systems: A Case for Integrated Provenance in Data Lakes)

数据湖上的数据追踪管理系统

2023-08-26 09:47:44 236

原创 Clickhouse基于文件复制写入

目前clickhouse社区对于数据的写入主要基于文件本地表、分布式表方式为主,但缺乏大批量快速写入场景下的数据写入方式,本文提供了一种基于clickhouse local 客户端工具分布式处理hdfs数据表文件,并将clickhouse以文件复制的方式完成写入clickhouse的方法

2023-08-14 15:34:30 991

原创 Apache Kudu 在**医疗科技的生产实践

apache kudu 在医疗场景下的应用实践

2023-07-15 09:55:57 1175

原创 IMPALA 查询优化之元数据

impala 查询优化,元数据刷新

2023-07-12 08:12:20 599

翻译 KUDU 事务

kudu 事务

2023-03-07 00:28:03 200

原创 spark 主要作者之一毕业论文(大型集群上的快速和通用数据处理架构)

spark论文

2022-04-16 22:40:52 2226

原创 分布式架构读书笔记

分布式架构

2022-04-09 10:25:53 100

原创 23种设计模式--脑图

23种设计模式--脑图

2022-03-18 17:18:30 286

原创 大数据实时依旧是一项很难的技术

大数据实时是一项很难的技术

2022-03-10 23:26:22 5388 6

原创 分布式一致性

分布式一致性

2022-02-17 17:32:44 1150

原创 clickhouse HA 及性能测试

目录需求说明逻辑架构图物体架构图测试性能测试指标说明:sql语句准备环境准备测试结论报告(1) HA测试,停止某台服务,对外服务是否正常访问(2)spark 以(5/10/20/40)个并发模拟写数据时,读性能(读50/100/150并发)测试2.1 写并发测试2.2 qps并发性能测试(3)租户划分使用场景(4)缓存结论需求说明 针对clickhouse作为生产环境的底层数据存储,为了能保证生产环境服务稳定可用,做如下性能测试:..

2022-02-17 10:49:40 4208 7

原创 LSMT论文翻译

LSMT论文翻译

2022-01-03 01:42:52 451

原创 google big table(翻译)

bigtable 的一些思考

2022-01-03 01:26:51 918

原创 sparkSql中的那些函数

对于sparksql的应用企业基本只要属于大数据相关的互联网公司都会安装和使用spark,而sparksql对于对于那些不熟悉sparkapi的人更是一件利器,这对于熟悉mysql的人如虎添翼,好了,废话不多说,我们看下sparksql中的那些很少被用到却非常有用的函数。lit:Creates a [[Column]] of literal value.创建一个字面 值得列;eg:df.se...

2020-02-19 22:34:44 561

原创 如何快速写出Mysql 语句

如何快速写出Mysql 语句一遇到sql语句不会,或遇到复杂的sql头疼,是很多人的通病,尤其对于一些新手。本文将重点教大家如何快速的写出sql语句。遵循如下原则:1.将要查询的业务列出来。2.将要做判断或过滤的东西放在where或Having中,同时where在group by前,having 在后。3.分组聚合出现的统计字段一定要体现在group by中4.对上诉的语...

2020-02-16 21:59:35 326

原创 hbase 错误调用表读方法引发的血案

记一次错误调用hbase读方法引发的血案需求说明目前公司的数据库存在上前亿级别的GPS坐标点,数据量在几十至百TB级别,这些坐标需要获取从百度、高德等网站上更新获取该点对应的服务信息,即一个坐标点对应一条该坐标的描述信息。如果将这些坐标全部按一个点一个 点 的查询下载,按照目前我们的查询Http接口带宽限制,至少需要1年多。通过抽样调研后发现,这些坐标里存在有大量的重复数据,重复率接近80...

2019-12-10 01:03:51 2963 1

原创 SparkStreaming从入门到放弃(五)

ReceiverTracker详解回顾,数据产生与导入的基本工作流程:(1) 由Receiver的总指挥ReceiverTracker分发多个 job(每个 job 有 1 个 task),到多个 executor 上分别启动ReceiverSupervisor实例; (2) 每个ReceiverSupervisor启动后将马上生成一个用户提供的Receiver实现...

2019-08-01 22:00:54 119

原创 SparkStreaming从入门到放弃(四)

从job角度看sparkStreaming回顾前文,JobGenerator维护了一个定时器,周期就是我们刚刚提到的batchDuration,定时为每个 batch 生成 RDD DAG 的实例,DStreamGraph.generateJobs(time)将返回一个Seq[Job],其中的每个Job是一个ForEachDStream实例的generateJob(time)...

2019-08-01 21:59:11 163

原创 SparkStreaming从入门到放弃(三)

本文主要讲解Dstream 如何生成RDD以及如何驱动RDD的调用的?(1)从Dstream.print()开始将数据打印出来,取前面几条,最后调用的是:而regester中是直接将结果作为输出ssc.graph.addOutputStream(this)上一节中我们知道,JobGenertor会掉用generatedJob来定期启动time调用job. 也就是说,...

2019-08-01 21:56:09 451

原创 SparkStreaming从入门到放弃(二)

本节主要针对Dstream 静态模板的讲解。回顾RDD,rdd是一个只读的数据集,因此不难知道,dstream也是一个数据集,也有transfermation和output。在dstreaming中,transfermation有map\filter\join\reduce等,output有print\save\foreachRDD等。看上节的例子:ssc.socketTextStrea...

2019-08-01 21:51:33 113

原创 SparkStreaming从入门到放弃(一)

在讲sparkStreaming之前先思考:如果让自己基于spark实现sparkStreaming该如何做?(1)首先假设我们的spark实现了如下简单功能那现在是spark流一定用来一个上面的模板对一批一批的rdd处理,应该是这样的:(2)上面所示,除了一个静态的RDD 模板,还需要一个动态的时间控制器,将streaming data切成片段应用至模板中。(3)我们的数...

2019-08-01 21:47:54 172

原创 分布式锁之zookeeper

引言在上一篇文章分布式事务之数据库锁中,我们明白了基于mysql数据库行锁能完成分布式事务,同时在最后留了个问题:当某个app加完行锁后因为某种原因非正常退出,此时该app并未释放行锁,导致其他app没法获取锁,该如何处理?接下来这篇文章将针对这个问题提出我们的解决思路,即采用zookeeper实现分布式锁。解决方案在实现zookeeper的分布式锁前,先理解zookeeper的临时节...

2019-06-26 21:35:19 125

原创 分布式事务之数据库锁

问题描述最近有个项目功能需求是需要我们获取一条mysql的记录,对其处理,处理完后再写回es和mysql,然后更新该msyql记录,因为我们是多用户并发操作,在此处理过程中需要严格保证只容许一个线程一个时候占用。即需要在mysql和elasticsearch数据库间保证分布式数据的原子性。那该如何做呢?具体问题业务描述具体需求是mysql数据库中存在一张表学生游戏积分表,积分表的每条记...

2019-06-22 20:02:31 957

原创 高并发及负载均衡之分表分库

先从公司的最近的一个大数据项目谈起。最近公司有一个项目,设计到大量的数据,设计到数据的存储查询同时还需要保证高并发,那现在如何解决存储和负载均衡的问题?下面的文章将该问题结合目前的数据库,谈谈它们在存储和负载方面有哪些解决方案。为什么要分表分库首先是为什么要分表分库?试想假如我们是早期的创业团队,主要以软件开发功能为主,数据量不大,主要是一些客户业务方面的数据,大概10w至1000w,早期...

2019-05-29 22:01:20 754

原创 spark 运行模式解析

上篇文章讲解了spark submit的提交至spark 集群,但是spark 程序如何在集群中运行并未讲解,这篇文章将围绕spark运行在集群下不同模式讲解,并说明他们的区别是什么?通常我们spark 提交任务时都会使用如下命令:spark-submit --deploy-mode DEPLOY_MODE其中DEPLOY_MODE就是我们想要将程序运行在什么模式下。在上篇文章中我们...

2019-05-04 15:55:38 134

原创 Spark submit 启动流程解析

用户通过将spark程序打成jar包提交给spark集群,其中的入口是spark-summit,比如spark官方文档中运行WordCount程序:spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 \ --executor-memory 2G \ --...

2019-05-04 12:45:29 821

原创 Hive 表的连接

Hive表常用连接对于直接在mapReduce中用join相比,hive的好处是简化了繁琐的处理工作,hive表的连接操作就是如此,本文主要讲解hive的4中主要连接:内连接、外连接、半连接、map连接。我们用如下的sales,things表的数据来举例说明各种连接的作用,方便大家理解。                             (图1 sales表)        ...

2019-01-26 12:17:24 930

原创 kafka分布式爬虫系统-任务的发放

任务的发放任务发放应该是一个全局的总机,它主要和用户打交道,用来接收用户的请求,然后将用户的请求转换成机器能执行的任务。用户就不需要关心任务是如何发放的,只要将想要抓的网站或内容分配给总机即可。这里些问题需要考虑是:1.如何保证任务能有序的执行。2.保证断电了任务不丢失,来电了任务还能继续在原来的断点处执行。3.当用户如果发了几百万的任务,保证所有主机不崩溃。基于前面的3点,我想到如下解决方案...

2019-01-24 21:49:18 1507

原创 kafka的分布式爬虫系统

前言    几乎停顿了1年之久,很久没写博客了,一方面是在院里做项目太忙,另一方面是自己也在摸索大数据领域的技术,终于自己搭起来了个基于kafka的分布式爬虫程序,可以抓网站的图像了,不多说,先看抓的图像数据。目前存储在elastic中的图像记录条数为1.7亿条,用了13个节点,具体的图像数据存储在hbase中。抓取的数据量超过2T,并20台机器同时抓取保持每天800w条数据增长,每天这么...

2019-01-24 21:37:28 2312

原创 scala语法总结

object TestScala { implicit def nobody(nothing:Int)=nothing.toString// implicit def int2String(name:Int)=name.toString def main(args: Array[String]): Unit = { //various//变量 // testFo...

2018-07-22 12:08:29 168

原创 TypeScript教程(2)

typescript 的使用用编辑器在文件夹test下生成创建一个hello.ts的文件,并写入如下内容:export class hello{}在命令行下 tsc hell.ts就会生成hello.js的文件,这就是tytescript过程。当然我们也可以在线的方式学习typescript的语法https://www.typescriptlang.org/play/index.html。(2...

2018-04-05 14:20:52 429

原创 TypeScript教程(1)

TypeScript的安装typescript并不能之间用在浏览器中使用,还需要一个编译器将其编译成javascript才能使用。(1)首先我们进入到官网安装typescriipttypescript官网(2)更加上面的步骤,我们先需要安装nodejs,即npm(node package manager);在ubuntu系统下:sudo apt-get npm install 在window下安装...

2018-04-05 13:00:19 713

原创 科比退役原因-数据分析

科比布莱恩特1996年进入NBA,至今在NBA已经是第20个年头了。从一个毛头小子,凭着坚韧的意志和努力的训练逐渐成为乔丹的接班人。职业生涯从"OK"组合的湖人王朝开始,到同奥尼尔关系破裂一个人独自带领湖人奋斗,直到再次拿下两连冠,科比已经是联盟当之无愧的第一人。直到现在37岁的科比“廉颇老矣”,宣布2015-2016赛季结束后退,这将是后乔丹的一个时代的结束,致敬科比!外界对科比的退役有

2017-12-18 19:30:51 1899

原创 Random Forests预测森林植被类型

在Colorado北部,有一片森林,森林里中有多种类型的植被,有人已经将其大概总结出来了7种:1 - Spruce/Fir2 - Lodgepole Pine3 - Ponderosa Pine4 - Cottonwood/Willow5 - Aspen6 - Douglas-fir7 - Krummholz如果将它们的特征划,可以划分成12种,在这12中类型中,其

2017-10-07 15:39:57 1710

原创 大数据可视化-绘制景点热力图

(1)在上篇博客中向大家展示了,在国庆期间没出来看人海,于是宅在家弄了个景点热力图,回顾下图做出来的样子:(2)这篇文章的接下来将和大家分享技术的实现,并很乐意分享相关的源码和大家交流。1.前台部分,百度api的讲解,先参考下该demo地图显示部分,主要是调用了BMapLib包下的类HeatMapOverlay,该类相关的设置在demo中可以参考,不过本图数据是需要从后台获

2017-10-02 15:12:43 11329 13

原创 国庆去哪人少,大数据来告诉你

据人民网报道,国庆中秋旅游指南发布 国内旅游人数预估7.1亿人次!是的,你没有看错,我也没有写错,今年的出游人数就有这么多.很多人感叹:这哪是去看景,分明是看人!问:说了这么多,那你倒是快用大数据告诉我哪里人少?我好选择去人少的地方。答:来吧,一起看图好了,下面是根据60个热门城市,根据某网站卖出票价情况做的一个热力图:问:这图看起来直观,大概是怎样的实

2017-10-02 14:30:01 12815

原创 ElasticSearch的增、删、改、查操作

本文分成两部分,一部分介绍在elasticsearch中索引的创建,第二部分介绍elasticsearch的基本操作.(1)首先我们创建一个index:1.在elasticsearch的webui界面中有一个add index中可以创建索引,填入所以的分片数和备份数即可。索引创建好了,接下来就是创建类别和文档,如下我创建一个person表,包含name,age,示例如:{ "man"

2017-09-24 18:24:54 413

原创 ElasticSearch的分布式安装

介绍:ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。安装过程:先去官网上下载最新的版本version:5.6.1,如图

2017-09-24 13:06:07 582

原创 sparkOnHbase 解决spark读取hbase数据后不能分布式操作

问题描述:在hbase数据库中保存了许多的图像帧数据,其中图像一行帧数据用在数据表中对应一个rowkey,需要用这许多的rowkey合成一个图像,发现很慢,和单机上合成图像有的一比;影响:因为图像需要实时合成,合成数据的快慢直接影响了用户的体验;之前的解决思路:在hbase中的rowkey对应的一行图像帧数据很多,需要先对其进行处理,比如去掉图像行帧数据中的格式、校验图像行等无关信息的去除

2017-09-21 23:17:16 4678 3

原创 gdal geotiff 坐标计算

本文讲解如何使用GDAL计算和处理teotiff地理图像,并得到地理坐标6系数

2017-06-08 11:23:31 3122 2

矢量化模型与code generator 模型的分析

Everything You Always Wanted to Know About Compiled and Vectorized Queries But Were Afraid to Ask 关于编译和向量化查询,你一直想知道但又不敢问的一切

2023-12-13

mfc学习文档

学习mfc的好文档。文档来自于一位MFC的爱好者,对于vs2010来做MFC界面学习资源不错。

2014-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除