2020年08月_存在morning

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创【ElasticSearch从入门到放弃系列五】ElasticSearch分布式集群搭建

上一篇blog介绍了ES的原理和基本使用方法，因为ES最厉害的地方就在于PB级别准实时的搜索能力，当然PB级的数据对于单个服务器去存储和检索还是很有难度的，所以ES一般使用时都使用分布式集群搭建。分布式相关概念级别概念集群 cluster一个集群就是由一个或多个节点组织在一起，它们共同持有整个的数据，并一起提供索引和搜索功能。一个集群由一个唯一的名字标识，这个名字默认就是“elasticsearch”。这个名字是重要的，因为一个节点只能通过指定某个集群的名字，来加入这个集群节

2020-08-19 09:26:27 514

原创【分布式集群搭建二】克隆虚拟机并配置集群

在上一篇blog-【分布式集群搭建一】虚拟机配置（VMware+Centos7+SecureCRT+AppNode）里讲到了如何创建一个虚拟机，在此基础之上，如果我们在虚拟机里部署了ElasticSearch、Kafka等等并且改了一堆配置之后，我们肯定不希望在其它机器上再搞一遍，所以克隆虚拟机就很有必要了。注意，克隆之前需要先将虚拟机关闭拍摄快照在克隆之前我们可以记录下当前虚拟机的状态，之后的克隆就基于当前虚拟机的快照进行复制，右键虚拟机-快照-拍摄快照克隆虚拟机拍摄完快照后就可以通过克隆操作

2020-08-30 18:47:33 1224 3

原创【分布式集群搭建一】虚拟机配置（VMware+Centos7+SecureCRT+AppNode）

环境准备的时候我决定使用VMware+Centos7+SecureCRT+AppNode的方式来搭建和管理虚拟机。1 安装VMware直接从VMware官方网站上下载即可：下载时选择左边的，我下载的时候最新版本为15.5（2020.8.30）.下载完成后直接按默认安装流程安装即可。2 下载Centos镜像直接从Centos官方网站上下载即可，下载时选择CentOS Linux即可。因为生产环境现在用的比较多的还是7，所以选择7的版本下载选择阿里云的镜像站点进行下载：使用标准版的DVD

2020-08-30 17:30:29 740

原创【实用工具指南二】视频剪辑工具

花了点时间研究了下视频剪辑，其实没有必要下载会声会影这么复杂的软件，如果只是简单的处理，推荐一个软件叫做【万兴喵影】，这个软件就是入门级的视频剪辑软件。下载完成后，操作界面非常简洁明了：可以直接裁剪片段可以定义视频的倍速：还有设置转场效果等等，剪辑完成后导出如果去水印是需要会员的。...

2020-08-30 15:42:59 363

原创【实用工具指南一】OCR图片识别自动翻译原文替换

最近收到家里上级的一项任务，把一个图片上的英文翻译成中文，并且做出一个一样的表格来，看起来东西不多，也就是一个小卡片：如果按照正常的流程就是：1，整个word文件，照猫画虎整个大致表格出来，把小人粘贴上去2，把表格里的英文全部翻译成中文3，把word截个图整出来显然这种方式太笨了，只有上级才会笨笨的一个一个翻译。既然咱是搞技术的，就得学会偷懒，直接在原图上改他不香么？于是在网上搜了个工具叫秒翻，应该是B站二次元的程序员搞的。在线版可以直接把中文识别出来、清楚原文、填充译文。实现一键三连。

2020-08-30 15:27:55 7928 1

原创【ElasticSearch从入门到放弃系列七】Spring Data Elasticsearch的使用

上一篇blog介绍了如何通过java客户端来操作ES，可以看到，操作还是很繁琐的，需要连接集群、开启客户端连接等一系列繁琐的动作，在正式介绍前,先了解下概念Spring Data：Spring Data 项目的目的是为了简化构建基于 Spring 框架应用的数据访问计数，包括非关系数据库、Map-Reduce 框架、云数据服务等等；另外也包含对关系数据库的访问支持，当然Spring Data Elasticsearch就是为了简化对Elasticsearch访问的一个Spring Data的子模块。可以

2020-08-24 09:51:04 586

原创【ElasticSearch从入门到放弃系列六】Java客户端操作ElasticSearch

我们知道ES的操作方式有两种，一种是http风格的，一种是tcp风格的，http风格的我们可以通过发送请求去进行索引的增删改查等操作、tcp风格的处理方式则需要我们编码去调用实现，由于ES本身是基于Lucene，而Lucene又是Java的开源搜索引擎，所以我们用Java语言去实现ES的调用。环境配置创建一个带有Maven的Java项目，添加Jar包并引入Maven的坐标  <properties> <m

2020-08-20 10:11:13 411

原创【ElasticSearch从入门到放弃系列四】ElasticSearch的基本概念和使用

上一篇blog详细介绍了lucene的基本概念和使用，本篇blog介绍的就是其工业级的应用ElasticSearch。也就是系列文章的主题。Elaticsearch，简称为es， es是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB[1024TB]级别的数据。es也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单:

2020-08-18 10:21:04 533

原创【ElasticSearch从入门到放弃系列三】Lucene的基本概念和使用

上一篇blog介绍了全文检索的实现思路，这一篇呢主要介绍开源的搜索引擎Lucene是如何基于这样的思路来进行具体的实现的。Lucene基本概念Lucene是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。在Java开发环境里Lucene是一个

2020-08-15 14:44:27 513

原创【Cassandra从入门到放弃系列三】Cassandra的数据模型设计

前两篇分别介绍了为什么要使用NoSql数据库及为什么选用Cassandra作为业务数据库以及其基于列的存储模式对于处理海量数据聚合计算的优势，本篇详细说明下Cassandra的数据模型是如何设计的？数据模型设计数据模型中有如下几个概念：Column，Super Column，Column Family以及Keyspace。列Column在Cassandra中，列是基本单元，可以想象为关系型数据库中的列。普通列ColumnColumn是Cassandra所支持的最基础的数据模型。该模型中可以包含一

2020-08-14 09:46:02 1615

原创【Cassandra从入门到放弃系列二】Column-based存储模式

在正式的了解Cassandra之前，有必要了解下Cassandra的存储模式，即Column-based存储模式。典型的NoSql按数据存储方式主要分为三类：Key-Value数据库，如Redis，Key-Value数据库会以键值对的方式来对数据进行存储。其内部常常通过哈希表这种结构来记录数据。在使用时，用户只需要通过Key来读取或写入相应的数据即可。因此其在对单条数据进行CRUD操作时速度非常快。而其缺陷也一样明显：只能通过键来访问数据。除此之外，数据库并不知道有关数据的其它信息。因此如果我们需要根

2020-08-11 13:25:35 1195

原创【ElasticSearch从入门到放弃系列二】全文检索的实现思路

上一篇全文检索的基本概念讲到了为什么要有全文检索这样的需求，那么有了需求，就有实现，开源的全文检索引擎Lucene应运而生。Lucene的实现流程和原理如下图所示：上图的执行流程说明如下：左侧绿色部分表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：确定原始内容即要搜索的内容—>采集文档—>创建文档—>分析文档—>索引文档右侧红色部分表示搜索过程，从索引库中搜索内容，搜索过程包括：用户通过搜索界面—>创建查询—>执行搜索—>从索引库搜索

2020-08-02 10:02:20 601

原创【ElasticSearch从入门到放弃系列一】全文检索基本概念

因为公司的技术栈里，业务数据和日志的搜索使用的是ElasticSearch这一开源项目，学习不能光停留在使用阶段，要搞清楚就搞个彻底。于是自学了ElasticSearch的相关知识，整体的内容学习都遵循这个框架图分为几个部分从底至上的去学习，可以用如下的方式去理解：第一阶段：需求的产生：对于非结构化的数据，如何快速的获取想要的数据，说白了就是如何能进行全文检索第二阶段：全文检索引擎：Lucene这个开源的jar包可以帮助实现全文检索第三阶段：便捷的中间件：Lucene的使用较为繁琐，于是在Luce

2020-08-01 11:05:55 573

TA关注的人

MaoLin Tian's Blog