大数据-云计算-数据库
文章平均质量分 79
大数据
云计算
数据库
FeelTouch Labs
这个作者很懒,什么都没留下…
展开
-
7个向量数据库对比:Milvus、Pinecone、Vespa、Weaviate、Vald、GSI 和 Qdrant
算法基准测试超出了范围,因为您始终可以求助于https://github.com/erikbern/ann-benchmarks查找有关单个算法性能和权衡的详细信息。原文链接:https://towardsdatascience.com/milvus-pinecone-vespa-weaviate-vald-gsi-what-unites-these-buzz-words-and-what-makes-each-9c65a3bd0696。:自定义实现的 HNSW,调整到规模,并支持完整的 CRUD。转载 2024-01-12 17:17:42 · 5987 阅读 · 3 评论 -
2024最佳5 个矢量数据库
我们最近看到了一系列令人印象深刻的矢量数据库,例如 Chroma、Pinecone、Weaviate、Faiss 和 Qdrant,每个数据库都提供独特的功能和创新。随着人工智能的不断发展,矢量数据库在塑造数据检索、处理和分析的未来方面的作用无疑将会增强,并有望在各个领域提供更复杂、高效和个性化的解决方案。这就是矢量数据库发挥作用的地方,为这些人工智能驱动的应用程序提供高度优化的环境。矢量数据库已成为强大的工具,可以在广阔的非结构化数据(如图像、视频和文本)中导航,而无需严重依赖人类生成的标签或标记。翻译 2024-01-12 15:24:41 · 615 阅读 · 0 评论 -
airflow是什么
airflow是一个用来对例行任务进行调度的平台,可以将所有有依赖关系的任务整合在一起。原创 2023-08-13 14:41:45 · 589 阅读 · 0 评论 -
Hadoop常用的操作指令速查和讲解
一、常用操作指令速查假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。0、启动与关闭启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh1、查看指定目录下内容hadoop dfs –ls [文件目录]...原创 2016-09-24 21:22:28 · 862 阅读 · 0 评论 -
Hadoop开发过程中遇到的问题和解决方法
先上正确运行的显示: 错误1:变量为IntWritable,接收的是LongWritable,如下图: 原因,多写了参数reporter,如下图: 错误2:数组超出边界,如下图: 原因:设置了combine类,如下图: 错误3:nullpointerexception异常,如下图: 原因:静态变量为null,赋值即可,如下图: 错误4:进入了map,但是无法原创 2015-06-28 15:00:33 · 2740 阅读 · 0 评论 -
HDFS分布式文件系统常用命令
1、列出本地文件系统命令:[hadoop@master hadoop-2.5.2]$ bin/hadoop fs -ls file:///2、查看文件系统组成各个文件的块:[hadoop@master hadoop-2.5.2]$ bin/hadoop fsck / -files -blocks3、将本地文件,复制到HDFS中:[hadoop@maste转载 2015-06-17 22:56:48 · 960 阅读 · 0 评论 -
storm步步深入---storm点点疑问
1、如何实现按窗口统计。实时统计本质上就是micro batch,把 batch 计算的窗口从一天缩小到分钟级别甚至秒级。所以实时计算的核心是窗口。而 Storm 的编程模型里没有窗口,如何在上层实现滚动窗口,滑动窗口,累积窗口,甚至是更复杂的基于业务逻辑的时间窗口模型。如何用远小于数据量(5w/s级别)的内存(700多m)实现实时计算。2、大数据量的处理,合并多partition的数据为转载 2015-05-27 19:31:20 · 1007 阅读 · 0 评论 -
storm步步深入---Storm用到的相关技术
网址: http://www.cnblogs.com/panfeng412/archive/2012/12/16/storm-related-technique-summary.htmlStorm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm中作用的概括介绍。以此为基础,后续再深入了解Storm的内部实现细节。1. Zook转载 2015-05-27 19:13:28 · 1009 阅读 · 0 评论 -
RocksDB---一个事实可以取代Redis和DynamoDB的NoSql数据库
不得不说的RocksDB标题看起来是比较大了,因为无论Redis还是DynamoDB都堪称是各自领域的翘楚,已经非常好了。RocksDB:https://github.com/facebook/rocksdb/RocksDB是使用C++编写的嵌入式kv存储引擎,其键值均允许使用二进制流。由Facebook基于levelDB开发, 提供向后兼容的levelDB API。RocksDB针对Flash存储进行优化,延迟极小。RocksDB使用LSM存储引擎,纯C++编写。Java版本RocksJ.原创 2020-06-15 18:50:35 · 8437 阅读 · 2 评论 -
LinDB---一个时序数据库LinDB详解
背景饿了么对时序数据库的需求主要来自各监控系统,主要用于存储监控指标。原来使用graphite,后来慢慢有对指标有多维的需求(主要体现在对一个指标加多个Tag, 来组成Series,然后对Tag进行Filter和Group进行计算),这时graphite基本很难满足需求。 业界现在用的比较多的主要有如下几类TSDB:InfluxDB:很多公司都在用,包括饿了么有部分监控系统也是用Influ...转载 2020-04-21 13:20:08 · 2323 阅读 · 0 评论 -
Couchbase---一个尝试做到完美的分布式 NoSQL数据库
简介官网地址:https://www.couchbase.com/Couchbase是一个较新的、发展迅速的nosql数据库技术。2014年,viber宣布使用Couchbase替换Mongodb,以适应10亿级的用户量,目前,Couchbase已大量运用于生产环境,国内使用的公司主要有新浪,腾讯等。Couchbase是CouchDB和MemBase的合并。而memBase是基于Memcached的。因此Couchbase联合了Couchbase的简单可靠和memcached的高性能,以及mem转载 2020-06-15 18:25:28 · 955 阅读 · 0 评论 -
ClickHouse---一个用于联机分析(OLAP)的开源列式数据库管理系统(DBMS)
简介ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop, Spark相比,ClickHouse很轻量级,由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++官网:https://clickhouse.tech/ClickHouse的特点开源的列存储数据库管理系统,支持线性扩展,简单方便,高可靠性,...原创 2020-04-05 15:23:08 · 1133 阅读 · 0 评论 -
研发效能系列----开源的数据库版本管理工具Flyway
1. 简介网址:https://flywaydb.org/Flyway是一款开源的数据库版本管理工具,Flyway可以独立于应用实现管理并跟踪数据库的变更,Flyway根据自己的约定,不需要复杂的配置就可以实现数据的Migrate。Migrations可以写成SQL脚本,也可以写在Java代码中,Flyway还支持Spring Boot。2. 为什么要使用Flyway在真实的项...原创 2020-03-12 14:03:46 · 939 阅读 · 0 评论 -
Samza---一个开源、分布式的流处理框架
Apache Samza是一个开源、分布式的流处理框架,它使用开源分布式消息处理系统Apache Kafka来实现消息服务,并使用资源管理器Apache Hadoop YARN实现容错处理、处理器隔离、安全性和资源管理。近日,从Apache官方博客中得知,开源的分布式流处理框架Samza历经18个月的孵化期后终于升级成为Apache的顶级项目。Samza由LinkedIn于2013年9月开源并作为...转载 2019-12-09 01:21:33 · 1393 阅读 · 0 评论 -
Apex---Apache开源流式处理框架
2016年底,facebook 统计报告显示全球已经有33亿人接入互联网,如我们算上通信用户,那么全球有超过三分之二的人已经通过某种方式接入互联网,每一天,人类的活动都将产生海量的数据,并且量级呈指数级上升。正是海量数据的快速生成,对于海量数据的存储和处理的技术也相对应的快速发展,由于大数据领域的快速发展,统计分析已经无法把数据的优势完美发挥,从而促使机器学习的第三次爆发。几乎是每隔几个月,我...转载 2019-12-09 00:58:43 · 1512 阅读 · 0 评论 -
DistributedLog---Twitter开源的分布式日志系统
Twitter的开源DistributedLog是一款高性能复制日志服务,能提供持久的可复制的强一致性(分布式事务机制),可以作为基础构建设施用于创建可靠的分布式系统,例如可复制的状态机(replicated-state-machine)、一般的pub/sub系统、分布式数据库和分布式队列等。是Kafka的竞争产品。分布式系统一般使用日志来构建可靠的复制性系统有两种范式,如下图://p...转载 2019-12-09 00:56:20 · 618 阅读 · 0 评论 -
Pravega---Dell Emc开源分布式流存储系统
当前的大数据处理系统无论是何种架构都面临一个共同的问题,即:“计算是原生的流计算,而存储却不是原生的流存储” 。Pravega 团队重新思考了这一基本的数据处理和存储规则,为这一场景重新设计了一种新的存储类型,即原生的流存储,命名为”Pravega”,取梵语中“Good Speed”之意。本文是“分布式流存储 Pravega 系列文章”第二篇,第一篇文章回顾《为什么你需要开源分布式流存储 Prav...转载 2019-12-09 00:52:53 · 1995 阅读 · 0 评论 -
LogDevice---Facebook开源一种用于日志的分布式数据存储系统
日志是记下有序序列的不可变记录,并将记录可靠存储起来的最简单方法。如果你构建数据密集型分布式服务,很可能在某处需要一两个日志。我们Facebook构建许多庞大的分布式服务来存储和处理数据。想要连接数据处理管道的两个阶段,又不必担心数据流控制或数据丢失?让一个阶段写入日志,另一个阶段从日志读取。在维护大型分布式数据库上的索引?让索引服务读取更新日志,以适当的顺序应用所有更改。有一系列一周后要以特定顺...转载 2019-12-09 00:49:41 · 482 阅读 · 0 评论 -
TiDB---一个分布式 NewSQL数据库
TiDB概要TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。TiDB 的目标是为 OLTP (Online Transactional Process...原创 2019-11-27 11:14:01 · 767 阅读 · 0 评论 -
InfluxDB---必知基础知识
简介InfluxDB是一个由InfluxData开发的开源时序型数据。它由Go写成,着力于高性能地查询与存储时序型数据。InfluxDB被广泛应用于存储系统的监控数据,IoT行业的实时数据等场景。常用的一种使用场景:监控数据统计。每毫秒记录一下电脑内存的使用情况,然后就可以根据统计的数据,利用图形化界面(InfluxDB V1一般配合Grafana)制作内存使用情况的折线图;其设计目标是实...原创 2019-11-23 13:27:50 · 2104 阅读 · 0 评论 -
LevelDB---必知的基础知识
简介LevelDB是一个功能上类Redis的key/value存储引擎。Redis是一个基于纯内存的存储系统,而LevelDB是基于内存 + SSD的架构,内存存储最新的修改和热数据(可理解为缓存),SSD作为全量数据的持久化存储,所以LevelDB具备比redis更高的存储量,且具备良好的写入性能,读性能就略差了,主要原因是由于冷数据需要进行磁盘IO。Facebook在levelDB的基础上...转载 2019-11-23 13:07:22 · 1691 阅读 · 0 评论 -
CouchDB---必知的基础知识
简介CouchDB是这两年很受geek追捧的数据库,作者曾是lotus开发人员。与传统的关系型数据库不同,它号称自己是文档数据库。所谓文档数据库,并不是说它只能存储文本,事实上因为它是一种schemal-less的概念。用过关系型数据库的同学都知道,数据表里定义的每一个字段都定义为一种类型:无论是int,char,datetime。但couchDB的字段只有三个:文档ID、文档版本号和内容。内...转载 2019-11-23 12:50:29 · 4555 阅读 · 1 评论 -
一款非常优秀的数据库建模软件PDMman
本人之前一直使用PowerDesigner作为建模工具,MAC下一直使用虚拟机操作,非常不方便,无意间发现一款非常漂亮的开源建模工具PDMan,在此和大家分享。码云地址:PDMan-国产免费通用数据库建模工具(极简,漂亮)官网地址:PDMan-国产免费通用数据库建模工具(极简,漂亮)PDMan官方介绍PDMan是由国内知名金融IT上市公司,内部研发团队设计的一款面向数据库模型建模的软件,...转载 2019-10-14 13:14:21 · 1053 阅读 · 0 评论 -
hadoop2.5.2下安装Hive0.14
1、安装hadoop环境http://blog.csdn.net/bahaidong/article/details/418659432、安装mysqlhttp://write.blog.csdn.net/postedit/420997893、Hive0.14下载地址,及解压http://mirrors.cnnic.cn/apache/hive/stab转载 2015-06-17 22:55:50 · 842 阅读 · 0 评论 -
Mysql语句查找指定重复记录和删除重复记录仅保留一条【亲测可以】
对于脏数据,除了通过程序来修复,也可以通过mysql本身来修复。问题一:查找指定组合字段的重复记录SELECT *FROM tb_teacher aWHERE (a.user_id, a.create_time) IN ( SELECT user_id, create_time FROM tb_teacher WHERE type = 3 GROU...原创 2018-06-05 00:24:46 · 3667 阅读 · 0 评论 -
Springboot 连接池wait_timeout超时设置
使用springboot 线程池连接MySQL时,mysql数据库wait_timeout 为8个小时,所以程序第二天发现报错,在url配置了 autoReconnect=true 也不行,查询配置以下#验证连接的有效性spring.datasource.test-while-idle=true#获取连接时候验证,会影响性能spring.datasource.test-on-borr...转载 2018-05-27 16:18:44 · 13712 阅读 · 0 评论 -
MySQL异常刨析:ata source rejected establishment of connection, message from server: “Too many connection
异常现象com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Data source rejected establishment of connection, message from server: "Too many connections"at sun.reflect.NativeConstructo...原创 2018-05-27 16:16:28 · 1803 阅读 · 0 评论 -
Mysql异常刨析:Could not commit JDBC transaction;No operations allowed after statement closed
问题描述异常堆栈如下:org.springframework.transaction.TransactionSystemException: nested exception is com.mysql.jdbc.excedbc4.MySQLNonTransientConnectionException: No operations allowed after connection closed...原创 2018-05-27 16:07:54 · 19699 阅读 · 0 评论 -
阿里巴巴Druid连接池配置
Druid 是阿里巴巴的开源数据库连接池技术,相比dbcp、c3p0更优秀,具有密码加密、sql连接监控功能,无论在性能还是稳定性上表现都十分出色。spring.xml <bean id="druidDataSource" class="com.alibaba.druid.pool.DruidDataSource" init-method="init" destroy-me转载 2017-10-24 21:41:18 · 738 阅读 · 0 评论 -
Mybatis实现条件IN查询(foreach)和invalid comparison异常
foreach标签foreach属性主要有item,index,collection,open,separator,close。1、item表示集合中每一个元素进行迭代时的别名,2、index指定一个名字,用于表示在迭代过程中,每次迭代到的位置,3、open表示该语句以什么开始,4、separator表示在每次进行迭代之间以什么符号作为分隔符,5、close表示以什么结束,6、collection...原创 2018-06-11 23:55:46 · 1092 阅读 · 1 评论 -
Mysql利用explain确认是否使用索引
MySQL表结构CREATE TABLE `tb_details` ( `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `order` varchar(255) COLLATE utf8_bin DEFAULT NULL, `user` varchar(255) COLLATE utf8_bin DEFAULT NULL, ...原创 2018-07-08 23:13:01 · 1625 阅读 · 2 评论 -
Mysql设计与查询的关键注意事项
1. 对于varchar字段的值要考虑是否区分大小写,即字段值大小敏感性 mysql 大小写遵循collate规则: *_bin: 表示的是binary case sensitive collation,区分大小写,#mysql对外提供了该方法 *_cs: case sensitive collation,区分大小写 #mysql暂未对外提供该方法 *_ci:...原创 2018-07-22 23:14:20 · 530 阅读 · 0 评论 -
Spark 以及 spark streaming 核心原理及实践
转载: 作者 蒋专,现CDG事业群社交与效果广告部微信广告中心业务逻辑组员工,负责广告系统后台开发,2012年上海同济大学软件学院本科毕业,曾在百度凤巢工作三年,2016年入职微信广告中心。导语spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spa...转载 2019-01-05 15:51:34 · 2693 阅读 · 0 评论 -
Apache Flink核心技术
Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。Fli...转载 2019-01-27 20:35:53 · 401 阅读 · 0 评论 -
MongoDB的mongo命令使用完整版
成功启动MongoDB后,再打开一个命令行窗口输入mongo,就可以进行数据库的一些操作。输入help可以看到基本操作命令:show dbs:显示数据库列表show collections:显示当前数据库中的集合(类似关系数据库中的表)show users:显示用户use <db name>:切换当前数据库,这和MS-SQL里面的意思一样db.help():显...转载 2019-03-13 08:19:36 · 514 阅读 · 0 评论 -
Redis提供的持久化机制
Redis提供的持久化机制 Redis是一种面向“key-value”类型数据的分布式NoSQL数据库系统,具有高性能、持久存储、适应高并发应用场景等优势。它虽然起步较晚,但发展却十分迅速。近日,Redis的作者在博客中写到,他看到的所有针对Redis的讨论中,对Redis持久化的误解是最大的,于是他写了一篇长文来对Redis的持久化进行了系统性的论述。文章主要包含三个方面:Red...转载 2019-04-19 00:36:30 · 297 阅读 · 0 评论 -
连接Mysql 报2013 lost connection to MYSQL server during query 错误问题解决方案
排查过程梳理如下1.MySQL 服务宕了判断是否属于这个原因的方法很简单,进入mysql控制台,查看mysql的运行时长mysql> show global status like 'uptime';+---------------+---------+| Variable_name | Value |+---------------+---------+| ...原创 2019-06-04 00:45:52 · 30294 阅读 · 2 评论 -
Java多线程系列-悲观锁和乐观锁实战
悲观锁介绍(百科):悲观锁,正如其名,它指的是对数据被外界(包括本系统当前的其他事务,以及来自外部系统的事务处理)修改持保守态度,因此,在整个数据处理过程中,将数据处于锁定状态。悲观锁的实现,往往依靠数据库提供的锁机制(也只有数据库层提供的锁机制才能真正保证数据访问的排他性,否则,即使在本系统中实现了加锁机制,也无法保证外部系统不会修改数据)。 使用场景举例:以MySQL InnoDB转载 2017-10-24 16:08:05 · 11609 阅读 · 0 评论 -
数据库事务、隔离级别、锁的理解与整理
数据库事务的ACID特性1. 事务的四个特性数据库事务(Transaction)是指作为单个逻辑工作单元执行的一系列操作,要么完全地执行,要么完全地不执行。一方面,当多个应用程序并发访问数据库时,事务可以在应用程序间提供一个隔离方法,防止互相干扰。另一方面,事务为数据库操作序列提供了一个从失败恢复正常的方法。事务具有四个特性:原子性(Atomicity)、一致性(Consi转载 2017-10-27 21:43:14 · 1405 阅读 · 0 评论 -
mysql两种引擎简要比较
在MySQL数据库中,常用的引擎主要就是2个:Innodb和MyIASM。首先:1.简单介绍这两种引擎,以及该如何去选择。2.这两种引擎所使用的数据结构是什么。1.a.Innodb引擎,Innodb引擎提供了对数据库ACID事务的支持。并且还提供了行级锁和外键的约束。它的设计的目标就是处理大数据容量的数据库系统。它本身实际上是基于Mysql后台的完整的系统。My转载 2017-03-23 22:59:22 · 5173 阅读 · 1 评论