数据库
文章平均质量分 69
田小雨
厚积才能薄发!自己选择的路,再苦再累也要坚持走下去
展开
-
搜索技术发展史
宏观而言,搜索引擎的发展经历了五个阶段和两大分类。五个阶段分别是FTP文件检索阶段、分类目录导航阶段、文本相关性检索阶段、网页链接分析阶段和用户意图识别阶段。如下:FTP文件检索 该阶段的搜索引擎只检索多个FTP服务器上存储的文件,代表作是Archie。用户搜索文件时需要输入精确的文件名来搜索查找,搜索引擎会告诉用户从哪一个FTP地址可以下载被搜索的文件。分类目录导航阶段 该阶段的搜索引擎就是一个导航网站,网站中都是网址的分类陈列,用户在互联网上常用的网址在这里...原创 2021-12-23 17:49:01 · 2723 阅读 · 0 评论 -
Hadoop 1.0 到 Hadoop 3.0版本功能概述
2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来,成为一套完整独立的软件,起名为HadoopHadoop名字不是一个缩写,而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛.原创 2021-11-22 19:04:02 · 2346 阅读 · 0 评论 -
hive下慎用insert overwrite用法 和 随机函数做为bucket
当前hive社区已到3.1.2版本,较多hive用户还不太清楚在0.14版本之后开始已支持事务,对于批处理任务中要用到update/delete/merge into的场景,非常受用。当前较多hive用户在做数据更新时还在用insert overwrite的用法,可以想象一下,如果是高并发的情况下,可能会出现什么情况? 在数仓/集市设计的过程中,表结构的设计尤为重要。对于hive来说,分区、分桶设计的好坏,可以直接影响批处理任务的执行效率,分桶如使用不当,则可能出现数据异常的情况,后果...原创 2021-11-01 16:30:43 · 1659 阅读 · 0 评论 -
HBase场景优化之regions过多、region过大
# Regions过多优化 通过OGG接入大量小表或者某些场景下,会出现HBase集群regions“过多”的情况,在某集群上有看到不到10个节点的集群,regions将近1万,其中一张不到1TB的表,有将近4000个region。 一般情况下,单个region的大小建议控制在5GB以内,可以通过参数hbase.hregion.max.filesize来设置,单个regionserver下的regions个数控制在200个以内。regions过多会导致集群不堪重负、regionserve...原创 2021-10-27 11:40:57 · 2947 阅读 · 0 评论 -
运维角度浅谈Mysql数据库优化
一个成熟的数据库架构并不是一开始设计就具备高可用、高伸缩等特性的,它是随着用户量的增加,基础架构才逐渐完善。这篇博文主要谈MySQL数据库发展周期中所面临的问题及优化方案,暂且抛开前端应用不说,大致分为以下五个阶段:1、数据库表设计 项目立项后,开发部根据产品部需求开发项目,开发工程师工作其中一部分就是对表结构设计。对于数据库来说,这点很重要,如果设计不当,会直接影响访问速度和用转载 2015-06-10 17:16:49 · 774 阅读 · 0 评论