humanity11-CSDN博客

翻译数据湖溯源追踪系统（Crossing Analytics Systems: A Case for Integrated Provenance in Data Lakes）

数据湖上的数据追踪管理系统

2023-08-26 09:47:44 236

原创 Clickhouse基于文件复制写入

目前clickhouse社区对于数据的写入主要基于文件本地表、分布式表方式为主，但缺乏大批量快速写入场景下的数据写入方式，本文提供了一种基于clickhouse local 客户端工具分布式处理hdfs数据表文件，并将clickhouse以文件复制的方式完成写入clickhouse的方法

2023-08-14 15:34:30 991

原创 Apache Kudu 在**医疗科技的生产实践

apache kudu 在医疗场景下的应用实践

2023-07-15 09:55:57 1175

原创 IMPALA 查询优化之元数据

impala 查询优化，元数据刷新

2023-07-12 08:12:20 599

原创 spark 主要作者之一毕业论文（大型集群上的快速和通用数据处理架构）

spark论文

2022-04-16 22:40:52 2226

目录需求说明逻辑架构图物体架构图测试性能测试指标说明：sql语句准备环境准备测试结论报告（1） HA测试，停止某台服务，对外服务是否正常访问（2）spark 以(5/10/20/40)个并发模拟写数据时，读性能(读50/100/150并发）测试2.1 写并发测试2.2 qps并发性能测试（3）租户划分使用场景（4）缓存结论需求说明针对clickhouse作为生产环境的底层数据存储，为了能保证生产环境服务稳定可用，做如下性能测试：..

2022-02-17 10:49:40 4208 7

原创 LSMT论文翻译

LSMT论文翻译

2022-01-03 01:42:52 451

原创 google big table(翻译）

bigtable 的一些思考

2022-01-03 01:26:51 918

原创 sparkSql中的那些函数

对于sparksql的应用企业基本只要属于大数据相关的互联网公司都会安装和使用spark，而sparksql对于对于那些不熟悉sparkapi的人更是一件利器，这对于熟悉mysql的人如虎添翼，好了，废话不多说，我们看下sparksql中的那些很少被用到却非常有用的函数。lit：Creates a [[Column]] of literal value.创建一个字面值得列；eg:df.se...

2020-02-19 22:34:44 561

原创如何快速写出Mysql 语句

如何快速写出Mysql 语句一遇到sql语句不会，或遇到复杂的sql头疼，是很多人的通病，尤其对于一些新手。本文将重点教大家如何快速的写出sql语句。遵循如下原则：1.将要查询的业务列出来。2.将要做判断或过滤的东西放在where或Having中，同时where在group by前，having 在后。3.分组聚合出现的统计字段一定要体现在group by中4.对上诉的语...

2020-02-16 21:59:35 326

原创 hbase 错误调用表读方法引发的血案

记一次错误调用hbase读方法引发的血案需求说明目前公司的数据库存在上前亿级别的GPS坐标点，数据量在几十至百TB级别，这些坐标需要获取从百度、高德等网站上更新获取该点对应的服务信息,即一个坐标点对应一条该坐标的描述信息。如果将这些坐标全部按一个点一个点的查询下载，按照目前我们的查询Http接口带宽限制，至少需要1年多。通过抽样调研后发现，这些坐标里存在有大量的重复数据，重复率接近80...

2019-12-10 01:03:51 2963 1

原创 SparkStreaming从入门到放弃（五）

ReceiverTracker详解回顾，数据产生与导入的基本工作流程：(1) 由Receiver的总指挥ReceiverTracker分发多个 job（每个 job 有 1 个 task），到多个 executor 上分别启动ReceiverSupervisor实例； (2) 每个ReceiverSupervisor启动后将马上生成一个用户提供的Receiver实现...

2019-08-01 22:00:54 119

原创 SparkStreaming从入门到放弃（四）

从job角度看sparkStreaming回顾前文，JobGenerator维护了一个定时器，周期就是我们刚刚提到的batchDuration，定时为每个 batch 生成 RDD DAG 的实例，DStreamGraph.generateJobs(time)将返回一个Seq[Job]，其中的每个Job是一个ForEachDStream实例的generateJob(time)...

2019-08-01 21:59:11 163

原创 SparkStreaming从入门到放弃（三）

本文主要讲解Dstream 如何生成RDD以及如何驱动RDD的调用的？（1）从Dstream.print()开始将数据打印出来，取前面几条，最后调用的是：而regester中是直接将结果作为输出ssc.graph.addOutputStream(this)上一节中我们知道,JobGenertor会掉用generatedJob来定期启动time调用job. 也就是说，...

2019-08-01 21:56:09 451

原创 SparkStreaming从入门到放弃（二）

本节主要针对Dstream 静态模板的讲解。回顾RDD，rdd是一个只读的数据集，因此不难知道，dstream也是一个数据集，也有transfermation和output。在dstreaming中，transfermation有map\filter\join\reduce等，output有print\save\foreachRDD等。看上节的例子：ssc.socketTextStrea...

2019-08-01 21:51:33 113

原创 SparkStreaming从入门到放弃（一）

在讲sparkStreaming之前先思考：如果让自己基于spark实现sparkStreaming该如何做？(1)首先假设我们的spark实现了如下简单功能那现在是spark流一定用来一个上面的模板对一批一批的rdd处理，应该是这样的：(2)上面所示，除了一个静态的RDD 模板，还需要一个动态的时间控制器，将streaming data切成片段应用至模板中。(3)我们的数...

2019-08-01 21:47:54 172

原创分布式锁之zookeeper

引言在上一篇文章分布式事务之数据库锁中，我们明白了基于mysql数据库行锁能完成分布式事务，同时在最后留了个问题：当某个app加完行锁后因为某种原因非正常退出，此时该app并未释放行锁，导致其他app没法获取锁，该如何处理？接下来这篇文章将针对这个问题提出我们的解决思路，即采用zookeeper实现分布式锁。解决方案在实现zookeeper的分布式锁前，先理解zookeeper的临时节...

2019-06-26 21:35:19 125

原创分布式事务之数据库锁

问题描述最近有个项目功能需求是需要我们获取一条mysql的记录，对其处理，处理完后再写回es和mysql，然后更新该msyql记录，因为我们是多用户并发操作，在此处理过程中需要严格保证只容许一个线程一个时候占用。即需要在mysql和elasticsearch数据库间保证分布式数据的原子性。那该如何做呢？具体问题业务描述具体需求是mysql数据库中存在一张表学生游戏积分表，积分表的每条记...

2019-06-22 20:02:31 957

原创高并发及负载均衡之分表分库

先从公司的最近的一个大数据项目谈起。最近公司有一个项目，设计到大量的数据，设计到数据的存储查询同时还需要保证高并发，那现在如何解决存储和负载均衡的问题？下面的文章将该问题结合目前的数据库，谈谈它们在存储和负载方面有哪些解决方案。为什么要分表分库首先是为什么要分表分库？试想假如我们是早期的创业团队，主要以软件开发功能为主，数据量不大，主要是一些客户业务方面的数据，大概10w至1000w，早期...

2019-05-29 22:01:20 754

原创 spark 运行模式解析

上篇文章讲解了spark submit的提交至spark 集群，但是spark 程序如何在集群中运行并未讲解，这篇文章将围绕spark运行在集群下不同模式讲解，并说明他们的区别是什么？通常我们spark 提交任务时都会使用如下命令：spark-submit --deploy-mode DEPLOY_MODE其中DEPLOY_MODE就是我们想要将程序运行在什么模式下。在上篇文章中我们...

2019-05-04 15:55:38 134

原创 Spark submit 启动流程解析

用户通过将spark程序打成jar包提交给spark集群，其中的入口是spark-summit,比如spark官方文档中运行WordCount程序：spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://master:7077 \ --executor-memory 2G \ --...

2019-05-04 12:45:29 821

原创 Hive 表的连接

Hive表常用连接对于直接在mapReduce中用join相比，hive的好处是简化了繁琐的处理工作，hive表的连接操作就是如此，本文主要讲解hive的4中主要连接：内连接、外连接、半连接、map连接。我们用如下的sales,things表的数据来举例说明各种连接的作用，方便大家理解。（图1 sales表） ...

2019-01-26 12:17:24 930

原创 kafka分布式爬虫系统-任务的发放

任务的发放任务发放应该是一个全局的总机，它主要和用户打交道，用来接收用户的请求，然后将用户的请求转换成机器能执行的任务。用户就不需要关心任务是如何发放的，只要将想要抓的网站或内容分配给总机即可。这里些问题需要考虑是：1.如何保证任务能有序的执行。2.保证断电了任务不丢失，来电了任务还能继续在原来的断点处执行。3.当用户如果发了几百万的任务，保证所有主机不崩溃。基于前面的3点，我想到如下解决方案...

2019-01-24 21:49:18 1507

原创 kafka的分布式爬虫系统

前言几乎停顿了1年之久，很久没写博客了，一方面是在院里做项目太忙，另一方面是自己也在摸索大数据领域的技术，终于自己搭起来了个基于kafka的分布式爬虫程序，可以抓网站的图像了，不多说，先看抓的图像数据。目前存储在elastic中的图像记录条数为1.7亿条，用了13个节点，具体的图像数据存储在hbase中。抓取的数据量超过2T，并20台机器同时抓取保持每天800w条数据增长，每天这么...

2019-01-24 21:37:28 2312

原创 scala语法总结

object TestScala { implicit def nobody(nothing:Int)=nothing.toString// implicit def int2String(name:Int)=name.toString def main(args: Array[String]): Unit = { //various//变量 // testFo...

2018-07-22 12:08:29 168

原创 TypeScript教程（2）

typescript 的使用用编辑器在文件夹test下生成创建一个hello.ts的文件，并写入如下内容：export class hello{}在命令行下 tsc hell.ts就会生成hello.js的文件，这就是tytescript过程。当然我们也可以在线的方式学习typescript的语法https://www.typescriptlang.org/play/index.html。（2...

2018-04-05 14:20:52 429

原创 TypeScript教程（1）

TypeScript的安装typescript并不能之间用在浏览器中使用，还需要一个编译器将其编译成javascript才能使用。（1）首先我们进入到官网安装typescriipttypescript官网（2）更加上面的步骤，我们先需要安装nodejs，即npm（node package manager）；在ubuntu系统下：sudo apt-get npm install 在window下安装...

2018-04-05 13:00:19 713

原创科比退役原因-数据分析

科比布莱恩特1996年进入NBA，至今在NBA已经是第20个年头了。从一个毛头小子，凭着坚韧的意志和努力的训练逐渐成为乔丹的接班人。职业生涯从"OK"组合的湖人王朝开始，到同奥尼尔关系破裂一个人独自带领湖人奋斗，直到再次拿下两连冠，科比已经是联盟当之无愧的第一人。直到现在37岁的科比“廉颇老矣”，宣布2015-2016赛季结束后退，这将是后乔丹的一个时代的结束，致敬科比！外界对科比的退役有

2017-12-18 19:30:51 1899

原创 Random Forests预测森林植被类型

在Colorado北部，有一片森林，森林里中有多种类型的植被，有人已经将其大概总结出来了7种：1 - Spruce/Fir2 - Lodgepole Pine3 - Ponderosa Pine4 - Cottonwood/Willow5 - Aspen6 - Douglas-fir7 - Krummholz如果将它们的特征划，可以划分成12种，在这12中类型中，其

2017-10-07 15:39:57 1710

原创大数据可视化-绘制景点热力图

（1）在上篇博客中向大家展示了，在国庆期间没出来看人海，于是宅在家弄了个景点热力图，回顾下图做出来的样子：(2)这篇文章的接下来将和大家分享技术的实现，并很乐意分享相关的源码和大家交流。1.前台部分，百度api的讲解，先参考下该demo地图显示部分，主要是调用了BMapLib包下的类HeatMapOverlay,该类相关的设置在demo中可以参考，不过本图数据是需要从后台获

2017-10-02 15:12:43 11329 13

原创国庆去哪人少，大数据来告诉你

据人民网报道，国庆中秋旅游指南发布国内旅游人数预估7.1亿人次！是的，你没有看错，我也没有写错，今年的出游人数就有这么多.很多人感叹：这哪是去看景，分明是看人！问:说了这么多，那你倒是快用大数据告诉我哪里人少?我好选择去人少的地方。答：来吧，一起看图好了，下面是根据60个热门城市，根据某网站卖出票价情况做的一个热力图：问：这图看起来直观，大概是怎样的实

2017-10-02 14:30:01 12815

原创 ElasticSearch的增、删、改、查操作

本文分成两部分，一部分介绍在elasticsearch中索引的创建，第二部分介绍elasticsearch的基本操作.（1）首先我们创建一个index：1.在elasticsearch的webui界面中有一个add index中可以创建索引，填入所以的分片数和备份数即可。索引创建好了，接下来就是创建类别和文档，如下我创建一个person表，包含name，age，示例如：{ "man"

2017-09-24 18:24:54 413

原创 ElasticSearch的分布式安装

介绍：ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。安装过程：先去官网上下载最新的版本version：5.6.1，如图

2017-09-24 13:06:07 582

原创 sparkOnHbase 解决spark读取hbase数据后不能分布式操作

问题描述：在hbase数据库中保存了许多的图像帧数据，其中图像一行帧数据用在数据表中对应一个rowkey，需要用这许多的rowkey合成一个图像，发现很慢，和单机上合成图像有的一比；影响：因为图像需要实时合成，合成数据的快慢直接影响了用户的体验；之前的解决思路：在hbase中的rowkey对应的一行图像帧数据很多，需要先对其进行处理,比如去掉图像行帧数据中的格式、校验图像行等无关信息的去除

2017-09-21 23:17:16 4678 3

原创 gdal geotiff 坐标计算

本文讲解如何使用GDAL计算和处理teotiff地理图像，并得到地理坐标6系数

2017-06-08 11:23:31 3122 2

矢量化模型与code generator 模型的分析

mfc学习文档

空空如也