一、概述
1、什么是Elaticsearch
Elaticsearch,简称为es,es是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别(大数据时代)的数据。es也使用java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful> API来隐藏Lucene的复杂性,从而让全文搜索变得简单。据国际权威的数据库产品评测机构DB> Engines的统计,在2016年1月,ElasticSearch已超过Solr等,成为排名第一的搜索引擎类应用。
安装es,head插件后,启动访问http://localhost:9100。如图:
我们可以这样理解上图:
这是一个es的可视化界面,其中:
- 索引 可以看做 “数据库”
- 类型 可以看做 “表”
- 文档 可以看做 “库中的数据(表中的行)”
2、IK分词器
IK分词器是es的一个分词插件,在下载之后我们需要解压到ElasticSearch的plugins目录。
所谓分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一一个匹配操作,默认的中文分词是将每个字看成一个词(不使用用IK分词器的情况下),比如“我爱狂神”会被分为”我”,”爱”,”狂”,”神”> ,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。
IK分词器支持两种分词算法:ik_smart、ik_max_word
- ik_smart:最少切分,比如“年轻人不讲武德”,会被分成“年轻人”、“不讲”、“武德”。
- ik_max_word:最小粒度切分(穷尽词库的可能),比如“年轻人不讲武德”,会被分成“年轻人”、“年轻”、“人”、“不讲”、“讲武”、“武德”等。
当默认的词库不够用时,我们可以添加自定义的词添加到扩展字典中
elasticsearch目录/plugins/ik/config/IKAnalyzer.cfg.xml,打开 IKAnalyzer.cfg.xml 文件,扩展字典。
3、Rest风格说明
一种软件架构风格,而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。
基本Rest命令说明:
二、SpringBoot集成
1、创建一个Springboot项目,导入依赖,注意es的版本改成7.6.1(与自己安装的版本相符)
<properties>
<java.version>1.8</java.version>
<elasticsearch.version>7.6.1</elasticsearch.version>
</properties>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>
<dependency>
2、创建一个配置类:
@Configuration
public class ElasticsearchConfig {
@Bean
public RestHighLevelClient restHighLevelClient(){
new RestHighLevelClient(RestClient.builder(
new HttpHost("localhost",9200,"http")
));
return restHighLevelClient();
}
}
3、创建一个实体类(类似与数据库与java中的实体映射),以User为例
@Data
@NoArgsConstructor
@AllArgsConstructor
public class User implements Serializable {
public static final long serialVersionUID = 1L;
private String name;
private int age;
}
4、测试(所有测试均在 EsApiApplicationTests中编写)
(1)测试创建索引
@Autowired
private RestHighLevelClient client;
/**
* 1、创建索引
*/
@Test
void createIndex() throws IOException {
//创建一个CreateIndexRequest请求
CreateIndexRequest request = new CreateIndexRequest("orange");
//执行请求
CreateIndexResponse response = client.indices().create(request, RequestOptions.DEFAULT);
//查看返回对象
System.out.println(response);
client.close();
}
(2)测试创建文档
/**
* 创建文档
*/
@Test
void createDocument() throws IOException {
//创建用户数据
User user = new User("李志成", 23);
//创建请求,操作orange数据库
IndexRequest request = new IndexRequest("orange");
//制定规则,id,超时时间
request.id("1");
request.timeout("1s");
//把数据放进请求中
request.source(JSON.toJSONString(user), XContentType.JSON);
//执行请求
IndexResponse response = client.index(request, RequestOptions.DEFAULT);
System.out.println(response);
client.close();
}
(3)测试文档的获取
// 测试获得文档信息
@Test
public void testGetDocument() throws IOException {
GetRequest request = new GetRequest("orange","1");
GetResponse response = restHighLevelClient.get(request, RequestOptions.DEFAULT);
System.out.println(response.getSourceAsString());// 打印文档内容
System.out.println(request);// 返回的全部内容和命令是一样的
restHighLevelClient.close();
(4)测试文档的更新
@Test
public void testUpdateDocument() throws IOException {
UpdateRequest request = new UpdateRequest("orange", "1");
User user = new User("lisi",11);
request.doc(JSON.toJSONString(user),XContentType.JSON);
UpdateResponse response = restHighLevelClient.update(request, RequestOptions.DEFAULT);
System.out.println(response.status()); // OK
restHighLevelClient.close();
}
(5)测试文档查询
/**
* 测试文档查询
* SearchRequest 搜索请求
* SearchSourceBuilder 条件构造
* termQueryBuilder 精确查询
*/
@Test
void searchTest() throws IOException {
//创建查询请求对象
SearchRequest searchRequest = new SearchRequest();
//构造搜索条件
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
//查询条件,使用 QueryBuilders工具类实现
TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", "李志成");
//查询条件投入到searchSourceBuilder中
searchSourceBuilder.query(termQueryBuilder);
//添加查询到请求中
searchRequest.source(searchSourceBuilder);
SearchResponse response = client.search(searchRequest, RequestOptions.DEFAULT);
//查看返回结果
SearchHits hits = response.getHits();
System.out.println(JSON.toJSONString(hits));
System.out.println("=======================");
for(SearchHit documentFields:hits.getHits()){
System.out.println(documentFields.getSourceAsMap());
}
}
(6)测试批量添加
/**
* 批量添加数据
*/
@Test
void BulkTest() throws IOException {
BulkRequest request = new BulkRequest();
ArrayList<User> users = new ArrayList<>();
users.add(new User("lisi",18));
users.add(new User("zhangsan",19));
users.add(new User("wangwu",20));
for(int i=0;i<users.size();i++){
request.add(
new IndexRequest("orange").id(""+(i+1))//没有设置id会随机生成
.timeout("10s")
.source(JSON.toJSONString(users.get(i)),XContentType.JSON)
);
}
BulkResponse response = client.bulk(request, RequestOptions.DEFAULT);
System.out.println(response.status());
}
三、实战(京东)
1、创建一个springboot项目(es_jd),导入相关依赖,其中es的版本要与自己本地的一致(7.6.1).
<properties>
<java.version>1.8</java.version>
<elasticsearch.version>7.6.1</elasticsearch.version>
</properties>
<dependencies>
<!-- jsoup解析页面 -->
<!-- 解析网页 爬视频可 研究tiko -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
<!-- fastjson -->
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>fastjson</artifactId>
<version>1.2.70</version>
</dependency>
<!-- ElasticSearch -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>
<!-- thymeleaf -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-thymeleaf</artifactId>
</dependency>
<!-- web -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<!-- devtools热部署 -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-devtools</artifactId>
<scope>runtime</scope>
<optional>true</optional>
</dependency>
<!-- -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-configuration-processor</artifactId>
<optional>true</optional>
</dependency>
<!-- lombok 需要安装插件 -->
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<optional>true</optional>
</dependency>
<!-- test -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-test</artifactId>
<scope>test</scope>
</dependency>
</dependencies>
2、导入前端素材,修改application.yml文件
server:
port: 8080
spring:
thymeleaf:
cache: false
3、创建配置类
@Configuration
public class ElasticSearchConfig {
@Bean
public RestHighLevelClient restHighLevelClient(){
RestHighLevelClient restHighLevelClient = new RestHighLevelClient(
RestClient.builder(new HttpHost("localhost",9200,"http"))
);
return restHighLevelClient;
}
}
4、编写HtmlParseUtil工具类,解析页面
public class HtmlParseUtil {
public static void main(String[] args) throws IOException {
System.out.println(parseJD("java"));
}
public static List<Content> parseJD(String keyword) throws IOException {
String url = "http://search.jd.com/search?keyword=" + keyword;
// 1.解析网页(jsoup 解析返回的对象是浏览器Document对象)
Document document = Jsoup.parse(new URL(url), 30000);
// 使用document可以使用在js对document的所有操作
// 2.获取元素(通过id)
Element j_goodsList = document.getElementById("J_goodsList");
// 3.获取J_goodsList ul 每一个 li
Elements lis = j_goodsList.getElementsByTag("li");
// System.out.println(lis);
// 4.获取li下的 img、price、name
// list存储所有li下的内容
List<Content> contents = new ArrayList<Content>();
for (Element li : lis) {
// 由于网站图片使用懒加载,将src属性替换为data-lazy-img
String img = li.getElementsByTag("img").eq(0).attr("data-lazy-img");// 获取li下 第一张图片
String name = li.getElementsByClass("p-name").eq(0).text();
String price = li.getElementsByClass("p-price").eq(0).text();
// 封装为对象
Content content = new Content(name,img,price);
// 添加到list中
contents.add(content);
}
// System.out.println(contents);
// 5.返回 list
return contents;
}
}
5、编写service,将数据放进es中
因为是爬取的数据,那么就不走Dao,以下编写都不会编写接口,开发中必须严格要求编写
@Service
public class ContentService {
@Autowired
private RestHighLevelClient restHighLevelClient;
// 1、解析数据放入 es 索引中
public Boolean parseContent(String keyword) throws IOException {
// 获取内容
List<Content> contents = HtmlParseUtil.parseJD(keyword);
// 内容放入 es 中
BulkRequest bulkRequest = new BulkRequest();
bulkRequest.timeout("2m"); // 可更具实际业务是指
for (int i = 0; i < contents.size(); i++) {
bulkRequest.add(
new IndexRequest("jd_goods")
.id(""+(i+1))
.source(JSON.toJSONString(contents.get(i)), XContentType.JSON)
);
}
BulkResponse bulk = restHighLevelClient.bulk(bulkRequest, RequestOptions.DEFAULT);
restHighLevelClient.close();
return !bulk.hasFailures();
}
6、编写controller,发送请求获取数据并放进es中
@RestController
public class ContentController {
@Autowired
private ContentService contentService;
@GetMapping("/parse/{keyword}")
@ResponseBody
public Boolean parse(@PathVariable("keyword")String keyword) throws IOException {
return contentService.parseContent(keyword);
}
}
至此,爬虫获取数据完成,之后编写编写查询接口(ContentService),与前端结合
// 2、根据keyword分页查询结果
public List<Map<String, Object>> search(String keyword, int pageNum, int pageSize) throws IOException {
if (pageNum < 0) {
pageNum = 0;
}
SearchRequest jd_goods = new SearchRequest("jd_goods");
// 创建搜索源建造者对象
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
// 条件采用:精确查询 通过keyword查字段name
TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", keyword);
searchSourceBuilder.query(termQueryBuilder);
searchSourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));// 60s
// 分页
searchSourceBuilder.from(pageNum);
searchSourceBuilder.size(pageSize);
// 搜索源放入搜索请求中
jd_goods.source(searchSourceBuilder);
// 执行查询,返回结果
SearchResponse searchResponse = restHighLevelClient.search(jd_goods, RequestOptions.DEFAULT);
restHighLevelClient.close();
// 解析结果
SearchHits hits = searchResponse.getHits();
List<Map<String, Object>> results = new ArrayList<>();
for (SearchHit documentFields : hits.getHits()) {
Map<String, Object> sourceAsMap = documentFields.getSourceAsMap();
results.add(sourceAsMap);
}
// 返回查询的结果
return results;
}
Controller方法如下:
@GetMapping("/search/{keyword}/{pageNum}/{pageSize}")
public List<Map<String,Object>> parse(@PathVariable("keyword") String keyword,
@PathVariable("pageNum") int pageNum,
@PathVariable("pageSize") int pageSize) throws IOException {
return contentService.search(keyword,pageNum,pageSize);
}
实现关键字高亮查询
1、编写高亮查询接口
//3、关键字高亮查询
public List<Map<String, Object>> HighLightSearch(String keyword, int pageNum, int pageSize) throws IOException {
if (pageNum < 0) {
pageNum = 0;
}
SearchRequest jd_goods = new SearchRequest("jd_goods");
// 创建搜索源建造者对象
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
// 条件采用:精确查询 通过keyword查字段name
TermQueryBuilder termQueryBuilder = QueryBuilders.termQuery("name", keyword);
searchSourceBuilder.query(termQueryBuilder);
searchSourceBuilder.timeout(new TimeValue(60, TimeUnit.SECONDS));// 60s
// 分页
searchSourceBuilder.from(pageNum);
searchSourceBuilder.size(pageSize);
//高亮
HighlightBuilder highlightBuilder = new HighlightBuilder();
highlightBuilder.field("name");
highlightBuilder.preTags("<span style='color:red'>");
highlightBuilder.postTags("</span>");
searchSourceBuilder.highlighter(highlightBuilder);
// 搜索源放入搜索请求中
jd_goods.source(searchSourceBuilder);
// 执行查询,返回结果
SearchResponse searchResponse = restHighLevelClient.search(jd_goods, RequestOptions.DEFAULT);
restHighLevelClient.close();
// 解析结果
SearchHits hits = searchResponse.getHits();
List<Map<String, Object>> results = new ArrayList<>();
for (SearchHit documentFields : hits.getHits()) {
// 使用新的字段值(高亮),覆盖旧的字段值
Map<String, Object> sourceAsMap = documentFields.getSourceAsMap();
//获取高亮字段
Map<String, HighlightField> highlightFields = documentFields.getHighlightFields();
HighlightField name = highlightFields.get("name");
//替换
if(name!=null){
Text[] fragments = name.fragments();
StringBuilder newName = new StringBuilder();
for(Text text:fragments){
newName.append(text);
}
sourceAsMap.put("name",newName.toString());
}
results.add(sourceAsMap);
}
// 返回查询的结果
return results;
}
2、编写Controller
@GetMapping("/h_search/{keyword}/{pageNum}/{pageSize}")
public List<Map<String,Object>> HighLightSearch(@PathVariable("keyword") String keyword,
@PathVariable("pageNum") int pageNum,
@PathVariable("pageSize") int pageSize) throws IOException {
return contentService.HighLightSearch(keyword,pageNum,pageSize);
}
3、测试