es
菜鸡旭旭
java爱好者
展开
-
Elasticsearch了解
Elasticsearch是一个实时分布式搜索和分析引擎。 它让你以前所未有的速度处理大数据成为可能。它用于全文搜索、结构化搜索、分析以及将这三者混合使用:维基百科使用Elasticsearch提供全文搜索并高亮关键字,以及输入实时搜索(search-as-you-type)和搜索纠错(did-you-mean)等搜索建议功能。英国卫报使用Elasticsearch结合用户日志和社交...原创 2018-03-08 09:36:54 · 181 阅读 · 0 评论 -
es(1)
Java APIElasticsearch为Java用户提供了两种内置客户端:节点客户端(node client):节点客户端以无数据节点(none data node)身份加入集群,换言之,它自己不存储任何数据,但是它知道数据在集群中的具体位置,并且能够直接转发请求到对应的节点上。 传输客户端(Transport client):这个更轻量的传输客户端能够发送请求到远程集群。它...原创 2018-03-08 10:21:10 · 275 阅读 · 0 评论 -
elasticserach的java api
有1.x 2.x 5.x 6.x版本 并且不通用api大致分为4部分 TransPortClient 获取client 执行相应的增删改查RestClient 5.0JestSpringData ES的实践开发还有很长的路要走,尤其分布式部署、原理、出现问题排查、高效检索 Java API的运用等。常用api分类 文档api 搜索api 索引api 查看a...原创 2018-03-08 11:09:20 · 300 阅读 · 0 评论 -
关于倒排索引
通常的存储方式: 一个未经处理的数据库中,一般是以文档ID作为索引,以文档内容作为记录。搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档。 怎么快速找到包含某个关键词的文档就成为搜索的关键。这里我们借助单词——文档矩阵模型, 通过这个模型我们可以很方便知道某篇文档包含哪些关键词,某个关键词被哪些文档所包含。 单词-文档矩阵的具体数据结构可以是倒排索引、签名文件、后缀树等。...原创 2018-03-15 19:19:01 · 374 阅读 · 0 评论 -
搜索引擎的发展
这片文章整理了搜索引擎的发展历史。 1995 成立了一大批搜索公司 yahoo 人工编辑导航目录,将重要站点份门别类整理,满足查询需要 大多数公司基于传统的信息检索服务。1998Google 引入PageRank搜索解决信息过载问题 垂直搜索和通用搜索的竞争搜索引擎发展历程 分类目录->文本检索->连接分析->用户中心导航时代 分类目录: 人工整理...原创 2018-03-16 11:14:26 · 1122 阅读 · 0 评论 -
网络爬虫
网络爬虫作为搜索引擎的基础构件。 作用将海量的数据传送到本地,形成镜像备份。先分析一下通用的爬虫架构 百度图片第二张就是 最主要还是去重式的下载 利用了队列可以将上述网页划分为5部分 已下载网页集合 已过期网页集合 待下载网页集合 可知网页集合 不可知网页集合大体而言 爬虫分3种类型 批量性爬虫 有限定范围(Batch Crawler) 增量性爬虫 会持续抓取...原创 2018-03-16 11:44:49 · 722 阅读 · 0 评论