自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

图特摩斯科技-博客

AbutionGraph:首个时序动态知识图谱数据库、AI大数据分析平台,分布式高可用,60种图挖掘算法,实时多维指标聚合、兼容TensorFlow,Spark,Flink全栈、物联网,金融等行业应用、NLP,OCR,计算机视觉,目标检测..

  • 博客(184)
  • 资源 (2)
  • 论坛 (1)
  • 收藏
  • 关注

原创 知识图谱数据库还有OLTP、OLAP(MOLAP、ROLAP、HOLAP)的区别? 首个实时图数仓架构分析...

面向大规模实时数据分析的HOLAP知识图谱数据仓库AbutionGraph与传统的OLTP图库有什么不同?我们将对OLAP图库的应用场景、面向的客户、实现原理、未来发展做出对比分析。

2020-09-29 11:22:26 1090

原创 [AbutionGraph] 报表制作-使用Grafana动态可视化知识图谱指标
原力计划

使用开源报表可视化工具Grafana实时监控时序知识图谱数据仓库AbutionGraph中的数据,实时性报表查询, 满足单次百万千万级的数据查询,毫秒级查询延迟,亚秒级对千亿数据量汇总统计,每日过亿报表查询/多维分析/日志分析等数据指标...

2020-07-08 18:05:43 824

原创 图谱智能中台AbutionGraph分布式计算引擎 - 边缘计算+时序动态知识图谱~=“数字孪生”

技术概览AbutionGraph是北京图特摩斯科技自研的首款时序动态知识图数据仓库与分析系统。AbutionDB是底层数据的承载,存储包括:动静结合的图谱数据、时间序列数据、KV表格数据、地理空间数据、事件数据、文本数据。AbutionGRS是首个以图谱为核心构建的下一代数据认知中台,是数据的开发层,提供所有大数据以及AI技术的逻辑封装、一键业务功能调用、指标数据查询、数据及资源资产管理等支持。AbutionGraph与外部数据库系统关系图为图谱智能中台AbutionGRS提供快速数据流转的

2020-05-23 18:44:37 544

原创 AbutionDB`知识图谱+时序机器学习特征存储

关于AbutionDB​AbutionDB是一个多模态的数据库,支持动静态知识图谱、时序事件数据、空间数据、机器学习特征、关系型数据、文本数据的存储,其中动态知识图谱平台AbutionGraph是一套包含数据采集、存储、计算、分析、监控的闭环大数据解决方案,本文将介绍知识图谱特征及其它用户行为特征在AbutionDB中作为机器学习特征存储的功能。机器学习概念机器学习是教会计算...

2020-04-21 11:48:39 770

原创 1台笔记本 vs 1个Hbase集群 - AbutionGraph图数据库+Flink性能测试

作者 | 闭雨哲出品 | 图特摩斯科技(thutmose.cn)AbutionGraph是图特摩斯自研的时序图数据库,它可以满足永不掉线的实时知识图谱指标计算任务以及历史数据分析,静态图+动态图+时序图同时存储。在面向大规模在线场景时,使用Flink技术做ETL的同时,保证数据接入更稳定且无丢失。目录:测试目的 业务场景 测试过程 AbutionGraph v.s Hb...

2020-03-08 18:19:46 475

原创 [AbutionGraph] 新冠肺炎实时动态时序图谱建模与分析

原文<--观看视觉更佳一、背景介绍新冠肺炎是一种具有最长达24天潜伏期的新型突发性传染疾病,这种特性给疫情防控带来了巨大的挑战,随着感染规模的不断扩增,简单的人为治理已不太奏效,使用“大数据”技术手段来辅助人为治理社会有助于快速准确的定位问题关键,帮助决策者及时作出下一步规划。个人感受:这一个月来每天都会在各大站点查看感染人数的更新、病例的行程发布等等,然而互联信息...

2020-02-16 22:00:12 3085 2

原创 [AbutionGraph] 轻松构建以知识图谱为核心的下一代数据中台

作者 | Raini出品 | 北京图特摩斯科技 (thutmose.cn)前言图特摩斯科技(Thutmose)基于自研的图形数据库AbutionGraph(实时多维数据存储与计算一体化的高可用平台)为核心,构建AI智能认知中台(认知图谱平台)来实现业务衔接,它不仅是一个能力中台,也是一个战略中台。作为能力平台,Thutmose认知中台向下作为整合者融合大数据与人工智能技术能力,向...

2020-01-11 12:20:32 1332

原创 [AbutionGraph] 知识图谱+Flink:大规模实时动态图谱平台的实现

作者 | Raini出品 | 北京图特摩斯科技(www.thutmose.cn)Flink:目前最受关注的大数据技术,最活跃 Apache 项目之一。AbutionGraph:北京图特摩斯科技自研的国内首个准实时多维图形数据库,首个将实时/离线/指标聚合/图挖掘/AI框架等热门技术线深度整合在一起的认知图谱平台,本文仅对实时性的相关优势做分析。AbutionGraph 具有以...

2019-12-30 22:28:37 2857

原创 [AbutionGraph] 大规模准实时动态时序知识图谱+AI平台

作者 | Raini出品 | 图特摩斯(北京)科技有限公司AbutionGraph是什么?AbutionGraph是一种能对历史和实时数据提供亚秒级别查询的多维图数据存储与分析平台。AbutionGraph支持低延时的数据摄取,灵活的数据探索分析,高性能的数据聚合,简便的水平扩展。高容错的架构在发生代码部署、机器故障以及其他产品系统遇到宕机等情况时,仍能够保持100...

2019-12-18 11:48:23 2810

原创 知识图谱「技术」~

知识图谱与图挖掘技术QQ交流群2:529757057bo主w~x:lovebyz99(交流请备注,对创业有想法欢迎联系)Breaking\Locking\Popping、AI、算法、大数据、前端、后端、知识图谱、微服务、云计算、区块链。。。...

2019-07-17 15:59:27 482

原创 使用Py-OpenCV(SIFT关键点)实现自然图像中的logo商标识别和定位

logo是包含了颜色、形状、特征等信息的图形实体。logo检测有很多挑战,比如视角变化、弯曲、形状和颜色的变化、遮挡、背景变化等。下图是我跑的一个(百度随便找的,非项目图)识别一般的效果图,虽然可以识别出指定的logo(1中左图),也受到logo多余部分的影响,最终匹配获取的logo区域有所放大,仔细观察发现logo外围区域颜色都是自下而上渐变变淡,野点(离群点)阈值不够,导致识别区域多了一部...

2018-12-14 15:37:00 6612 6

原创 使用(SIFT特征KMeans聚类关键点训练SVM)实现自然图像中的logo商标识别和定位

(本博客只记录方法,因为本人觉得这是机器学习特征工程中一种比较不错的做法)上一篇博客中的方法:使用Py-OpenCV(SIFT关键点)实现自然图像中的logo商标识别和定位当然也能提前欲知该方法的缺点,对于新的logo需要重新训练模型,而且所需的数据集远大于上面的方法。 实现方法:bb = [v for v in image_to_descriptors.values()]...

2018-12-14 15:31:58 3669 4

原创 主流深度学习OCR文字识别方法对比:Tesseract(LSTM)、CTPN+CRNN、Densenet

作者 | Raini出品 | 北京图特摩斯科技有限公司(www.thutmose.cn)也是几个月前的项目了,由于手头事儿多,也已经转交给别的同事去继续优化。本博客仅做个简单的记录用。这里是Tesseract(LSTM)、CTPN+CRNN、Densenet三个方法测试结果对比(结果不是最优,代码也经过优化):PS:官方Tesseract-4.0需要Ubuntu-18...

2018-12-11 20:07:06 31199 27

原创 [OpenCV_GrubCut]实现交互式图像分割提取前景--Python抠图

这部分内容是几个月前做的项目,一直没时间整理记录,在这里随便写一下方便日后回忆. "GrabCut":使用迭代图形切割的交互式前景提取工具,用于在分割任务中按像素标记图像数据.OpenCV官网例子算法过程:    首先,输入矩形框,矩形框外部区域都是背景。内部一定包含前景。     电脑对输入图像进行初始化,标记前景和背景的像素。     使用高斯混合模型(GMM)对前景和...

2018-12-07 14:58:49 4058 5

原创 分布式算法调参神器HyperOptSearch-[增强学习Ray.tune]-使用XGboost举例

分布式增强学习Ray.tune调参神器HyperOptSearch近日在研究分布式增强学习框架Ray.tune(深度学习参数优化)模块时,发现里面使用的HyperOptSearch其实是基于HyperOpt(最后章节讲解)(https://github.com/hyperopt/hyperopt)支持的SearchAlgorithm,用于执行基于模型的顺序超参数优化,但是又结合了一些新的算法进...

2018-12-06 18:22:18 2199 10

原创 [SemanticSoftSegmentation:语义软分割]-2018最强图像分割光谱消光算法调研与测试

SSS据说是迄今为止效果最好的图像分割算法,效果超过Mask-RCNN,我们来研究一下下。(项目测试结果在最后)Github项目:https://github.com/yaksoy/SemanticSoftSegmentation算法主要处理步骤:特征降维,从128维特征降到3维。超像素处理,用于计算Superpixels。计算仿射变换和 Laplacian,包括:Matting ...

2018-11-27 19:07:06 3151 5

原创 Spark持续流处理与Flink比对

 Spark流处理Spark从2.3版本开始引入了持续流式处理模型,可将流处理延迟降低至毫秒级别,让 Structured Streaming 达到了一个里程碑式的高度;使用 Pandas UDF 提升 PySpark 的性能;为 Spark 应用程序提供 Kubernetes 原生支持。出于某些原因的考虑,Spark 引入 Structured Streaming 将微批次处理从高级...

2018-11-19 19:41:17 2681

原创 基于LBP纹理特征计算GLCM的纹理特征统计量+SVM/RF识别纹理图片

## 局部特征检测方法斑点 Blob检测,LoG检测 , DoG,DoH检测,SIFT算法,SUFT算法边缘检测 梯度边缘检测算子,拉普拉斯算子,LoG检测 ,Canny边缘检测算子,Roberts,Sobel,Prewitt,角点检测 Kitchen-Rosenfeld,Harris角点,多尺度Harris角点,KLT,SUSAN检测算子,Shi-Tomasi将基于主分量分析和Fisher线性鉴别分析所获得的特征抽取方法,统称为线性投影分析。这些方法与本文无太大关系,主要用于Logo检

2018-11-13 18:56:35 18809 8

原创 [MMLSpark]使用Spark Serving将模型部署为实时的Web服务

新东西,我们一起来尝鲜~~使用人口普查数据集(点击可下载)预测收入我们将使用Spark Serving将其部署为实时的Web服务。 首先,我们导入所需的包:import sysimport numpy as npimport pandas as pdimport mmlspark...

2018-10-25 17:58:09 3147 5

原创 大数据平台搭建:Hadoop-3.x + Spark-2.x + Hive-2.x + Hbase-1.4 + Phoenix-4.14 + Cassandra + ES

换了新笔记本,做个笔记。一,软件准备(自取所需)Java-1.8Scala-2.11Hadoop-3.1.1Spark-2.3.2Hive-2.3.4phoenix二,SSH免密码登录(即使是当地的单机也需要SSH,否则格式化的hadoop的存储系统时无权限,导致失败:本地主机:@localhost:权限被拒绝(公钥,密码)开始)ssh免密两步骤(...

2018-10-24 18:28:24 3831 4

原创 AI 多类分类(multi-class) and 多标签分类(mulit-label) and 多输出-多分类-多标签classification

一些知识点:sigmoid和softmax是神经网络输出层使用的激活函数,分别用于两类判别和多类判别。binary cross-entropy和categorical cross-entropy是相对应的损失函数。对应的激活函数和损失函数相匹配,可以使得error propagation的时候,每个输出神经元的“误差”(损失函数对输入的导数)恰等于其输出与ground truth之差。...

2018-07-17 16:54:43 9692 8

原创 Mask R-CNN 训练自己的数据集—踩坑与填坑

作者 | Raini出品 |北京图特摩斯科技有限公司(thutmose.cn)tensorflow/keras版(项目地址https://github.com/matterport)。服务器cuda为8.0版本,尝试升级成9.1没成功,之后再降级回8.0了,python版本一开始为py36,提示错误libcublas.so.8.0:cannot open shared object...

2018-04-28 18:26:59 18558 71

转载 Cassandra3.11读写性能测试

1. 测试目的测试Cassandra集群读写TPS的极值,确定Cassandra读写性能。2. 测试环境2.1 硬件信息CPU 8核 Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz RAM 16G 2.2 软件信息JDK 1.8u151 Cassandra 3.11.1 cassandra-drive...

2020-03-05 10:54:46 416

转载 HBase 2.2 随机读写性能测试

测试环境测试环境包括测试过程中HBase集群的拓扑结构、以及需要用到的硬件和软件资源,硬件资源包括:测试机器配置、网络状态等等,软件资源包括操作系统、HBase相关软件以及测试工具等。集群拓扑结构本次测试中,测试环境总共包含3台物理机作为Hadoop数据存储,其中2台物理机作为RegionServer部署宿主机,每个宿主机上起2个RegionServer节点,整个集群一共4个Regio...

2020-02-28 13:37:47 439

转载 IDEA搭建javaWeb项目图文教程

1、新建一个Web项目两种方法:java 和Java Enterprise(推荐)第一种)通过Java工程创建,这个方法需要手动导入Tomcat的servlet包才能使用servlet导入包的方法是创建项目并配置好Tomcat后,File->Project Structure,点击 Modules --> 选中项目“JavaWeb” -->切换到 Depende...

2019-08-03 11:27:29 550

原创 Web项目(Swagger+Jersey)用IDEA打war包并部署

我一个算法工程师勤学多看,抓狂两周终于完成了自己想要的后端首先:IDEA搭建javaWeb项目步骤:一、文件->项目结构二、注意一定选空的Artifacts,我用现有的导致swagger一直不能显示api信息三、取一个war包的名字四、选择web资源root路径,一般为src/main下的"webapp"我的在src/main下的"web",点击即...

2019-08-02 17:07:20 688

转载 图形聚类算法:MCL

Different ClusteringVector Clustering我们在描述一个人时,常常会使用他所拥有的特点来表示,比如说:张三,男,高个子,有点壮。那么,这就可以用四维向量来表示,如果再复杂一些,就是更高维的向量空间了。下图是在二维空间之中的分布情况,可以较为直观的看出,以红色虚线为界,可以分为两个类别。Graph Clustering和特征聚类不同,图聚类比较难以观察...

2019-06-28 14:36:41 3692

转载 Graph Neural Network Review

图(graph)是一个非常常用的数据结构,现实世界中很多很多任务可以描述为图问题,比如社交网络,蛋白体结构,交通路网数据,以及很火的知识图谱等,甚至规则网格结构数据(如图像,视频等)也是图数据的一种特殊形式,因此图是一个很值得研究的领域。针对graph的研究可以分为三类:1.经典的graph算法,如生成树算法,最短路算法,复杂一点的二分图匹配,费用流问题等等;2.概率图模型,将条件概率...

2019-05-17 15:26:03 718

原创 「JanusGraph-Gremlin」高级语法sack()局部数据结构

sack(麻袋)帮助人们更细致有效地解决问题在某些情况下,人们正在编写使用路径信息进行数据聚合的Gremlin遍历。通常,人们将使用path()然后再执行一些过滤以“减少”路径中的数据获得特定结果。不幸的是,这是低效的,因为路径计算是昂贵的,且是不可以合并的,计算全部路径再过滤相当耗资源和时间且笨拙。原理sack是相对于每个遍历者的局部数据结构,与aggregate()/st...

2019-04-24 10:00:50 924

原创 实现将输入字符串转成唯一数字id输出--Groovy/Scala/Java

MD5,Message Digest Algorithm 5,是一种被广泛使用的信息摘要算法,可以将给定的任意长度数据通过一定的算法计算得出一个 128 位固定长度的散列值。步骤(Groovy):// 第一步,获取MessageDigest对象,参数为MD5表示这是一个MD5算法md5 = MessageDigest.getInstance("MD5")// 第二步...

2019-04-19 14:10:01 7404

原创 Linux shell中使用sed 替换\n换行符 (多行边一行、一行变多行)

基本语法:sed"s/要匹配的字符串/要替换成的字符串/g"test.gson语法解释:sed是按行处理文本数据的,每次处理一行数据后,都会在行尾自动添加trailing newline,其实就是行的分隔符即换行符。连续两行执行一次sed命令,这样就可以把前一行的\n替换完成。(Ps:执行一次命令其实就是数据两两去除了中间的\n而已)(多行)替换/删除所有换行符(变一行):...

2019-04-18 14:37:35 12436

转载 实现GraphX与GraphSON格式相互转换

摘要转换器实现了:1.根据用户输入的SparkContext,和文件路径,读取GraphSON格式文件,转换为GraphX所接受的graphRDD;2.用户输入GraphX的graphRDD,在指定文件路径输出GraphSON格式文件。相关版本Apache TinkerPop 3.3.3scala 2.11.8spark-graphx 2.11提示假设读者较为熟悉Graph...

2019-04-15 15:07:46 1165

原创 SparkJDBC并行查询RDBMS数据库的参数方法

当通过spark读取mysql时,如果数据量比较大,为了加快速度,通常会起多个task并行拉取mysql数据。api:defjdbc(url: String, table: String, columnName: String, lowerBound: Long, upperBound: Long, numPartitions: Int, connectionProperties: Pro...

2019-04-12 17:49:05 645

原创 「JanusGraph与HugeGraph」图形数据库 - 技术选型-功能对比

Tinkerpop highlevel-archgremlin server: httpserver/websocket server接收标准的gremlin dsl语法,自身相当于一个计算节点,完成图的遍历,或者操作DML语言,操作底层OLTP图库。 gremlin traversal language:图的查询遍历语言及语言解释实现,类似sqlparser provider ...

2019-03-25 17:49:17 6915 1

原创 「JanusGraph」图形数据库 - 技术选型调研

JanusGraph各组件版本兼容性匹配表JanusGraphJanusGraph提供多种后端存储和后端索引,使其能够更灵活的部署。本章介绍了几种可能的部署场景,以帮助解决这种灵活性带来的复杂性。在讨论部署场景之前,理解JanusGraph本身的角色定位和后端存储的角色定位是非常重要的。首先,应用程序与JanusGraph进行交互大多数情况下都是进行Gremlin遍历,然后,Jan...

2019-02-27 17:14:19 1616

原创 「HugeGraph」图形数据库 - 个人选型文档备份

(仅为个人操作记录使用)安装zookeeper这里安装的是单机模式。版本是zookeeper-3.4.9.tar.gz。已装,步骤略。(看我博客-集群安装)安装Hbase单机模式配置Hbase1.下载:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.1.2/hbase-2.1.2-bin.tar.gz2.~$ g...

2019-02-27 17:11:15 1196 2

原创 解决SSH免密登录配置成功后不生效问题

配置免密登录很简单,重点就两步,分布式scp~/.ssh/authorized_keys 中内容到所有你想相互免密的机器即可。1. 执行命令$ ssh-keygen-trsa-P""回车后会在 ~/.ssh/ 下生成两个文件:id_rsa 和 id_rsa.pub,这两个文件是成对出现的2. cat~/.ssh/id_rsa.pub>>~/.ssh/aut...

2019-02-25 15:18:48 14033 3

原创 Accumulo安装部署

Accumulo依赖Zookeeper:需首先安装ZookeeperPs:对Accumulo应用开发感兴趣的小伙伴请加wx:lovebyz99简介Accumulo是一款开源分布式NoSQL数据库,基于谷歌的BigTable构建而成。其能够非常高效地对超大规模数据集(通常即指大数据)执行CRUD(即创建、读取、更新与删除)操作。相较于其它类似的分布式数据库选项(例如HBase或者Couc...

2019-01-18 18:52:53 3049 4

原创 [Zookeeper] 安装and各 配置参数详解

分布式常见问题容易出现死锁 容易活锁,处于活锁的线程都是非阻塞的,而且每个线程都抢不到资源,会造成cpu的耗费 集群的管理问题,比如某台的宕机需要能够检测到 集群配置文件的统一管理问题 集群中信息更新通知问题,某一台机器发布一个信息,能够让整个集群的机器都知道 管理集群的选举问题,管理集群的机器本身也是一个集群(例如zookeeper集群),其中有一台为主(选举得到),其他为从。 ...

2019-01-18 18:30:27 376

转载 Structured Streaming与Flink比较

flink是标准的实时处理引擎,而且Spark的两个模块Spark Streaming和Structured Streaming都是基于微批处理的,不过现在Spark Streaming已经非常稳定基本都没有更新了,然后重点移到spark sql和structured Streaming了。Flink作为一个很好用的实时处理框架,也支持批处理,不仅提供了API的形式,也可以写sql文本。这...

2019-01-11 10:43:16 2801

《Hadoop MapReduce Cookbook》hadoop推荐书籍

有兴趣研究的同志可以看看 英文要好~ 看到很多资深专家都推荐这本书

2014-07-23

ubuntu版64位 cuda8 和cudnn 6 百度网盘下载

ubuntu cada8 + cudnn6 资源下载,我是用来装deepin15.5系统的

2018-05-12

Thutmose.cn的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除