十、SpringBoot中使用 ElasticsearchTemplate 实施高亮搜索

  ElasticsearchTemplate是Springboot为我们自动装载的Elasticsearch模板,使用该模板,基本可以满足我们的搜索需求!   案例背景介绍:用户输入一个关键词:“历史”,要求同时在索引库中“name”、“author”、"category&am...

2019-02-14 21:07:24

阅读数 18

评论数 0

九、将 elasticsearch中的时间字符"yyyy-MM-dd'T'HH:mm:ss.SSS Z"串转换成 Date

/** * 将 yyyy-MM-dd'T'HH:mm:ss.SSS Z 转换成 Date */ private static Date formateDate(String dateStr){ try { dateStr...

2019-02-14 20:53:06

阅读数 26

评论数 1

十一、在不同机器上的Redis导出导入数据

一、问题背景   我以前使用的linux虚拟机是32位,现在好多最新的软件只支持64位,所以弄了一个64位虚拟机。相对应的,我需要将原虚拟机上的redis数据转移到64位虚拟机中,这就涉及到在不同机器上的Redis导出导入数据。   经过查询资料,选用redis-dump工具。 二、安装redis...

2019-02-14 10:27:59

阅读数 22

评论数 0

七、利用ik分词器 + kibana + logstash 向es 中导入mysql数据,并索引

一、向 es 中安装ik分词器插件 第一步:去https://github.com/medcl/elasticsearch-analysis-ik/releases?after=v5.5.3该网址下载对应版本的ik分词器(下zip版,不要下成source版) 第二步:在es的plugins下新...

2019-02-11 23:11:48

阅读数 13

评论数 0

八、使用elasticsearch + kibana + logstash 导入mysql数据和创建索引实

一、mysql 数据准备   因为我的 Mysql 是在windows 上的,所以在windows中要设置 mysql 容许远程访问。关于具体设置参见 mysql如何修改开启允许远程连接 (windows)。   本次实践用表: 二、kibana中创建索引 PUT booklist ...

2019-02-11 22:41:56

阅读数 25

评论数 0

六、使用elasticsearch创建索引

(一)参考资料   关于索引的所有详细信息,参见 ElasticSearch入门 第三篇:索引   上面的资料是基于elasticsearch2.x,而笔者是基于elasticsearch6.x,这里简单提一下6.x更新的地方: 字段类型 String 没有了,被 text 和 keyw...

2019-02-11 17:24:18

阅读数 37

评论数 0

十八、Linux中创建非root用户,并授权对某个应用的操作权限

1、创建 elk 用户,并切换到 elk 用户 # 以root用户来创建新的用户 , groupadd 添加一个用户组 [root@localhost home]# groupadd elk # 添加一个用户,-g是在用户组下 -p是密码 [root@localhost home]# userad...

2019-02-05 10:30:09

阅读数 23

评论数 0

十二、学习爬虫框架WebMagic(八)---访问超时、402等解决办法

一、问题 备注:在前面一章我们提到,我们使用 redis 来实现去重和增量爬取,这是本篇文章的前提。   在使用 webmagic 爬取小说网站时,由于网络或者访问过于频繁时,小说网站服务器会返回超时、402/400/502等错误,但是这些URL依然会被记录到redis中,这样就带来一...

2019-01-31 11:53:33

阅读数 32

评论数 1

十一、学习爬虫框架WebMagic(七)---实战小技巧

(一)Site.sleepTime的设置问题   Webmagic 框架默认的休眠时间为5000(5s),我看网上一般设置为1000(1s),经实际验证,若休眠时间过短,在多线程访问页面时,会报大量的403错误,所以这里在爬取线程过多时,不妨就用框架默认的休眠时间。 (二)page.setSkip...

2019-01-27 22:39:56

阅读数 12

评论数 0

十、学习爬虫框架WebMagic(六)---去重和增量爬取

一、问题缘由 (一)去重   笔者最近正在做一个爬取小说网站的后台端,遇到一个问题:有些URL重复爬取了。尽管重复爬取的页面不多,但是还是对程序造成了一些困扰,所以尝试去找到一种可以百分百去重的手段。   通过查阅相关资料,知道 Webmagic 去重靠的是Scheduler,默认使用的是Queu...

2019-01-27 11:58:58

阅读数 88

评论数 5

七、Springboot项目中,非Controller使用@Autowired注解 service注入为null的问题

@Component// 将工具类声明为spring组件,这个必须不能忘 public class TestUtils { @Autowired private ItemService itemService; @Autowired // private I...

2019-01-25 20:22:49

阅读数 20

评论数 0

六、spring boot 2 内嵌Tomcat 抛出异常 “Stopping service [Tomcat]”

内嵌tomcat的入口类是org.apache.catalina.core.StandardService 最终找到org.springframework.context.support.AbstractApplicationContext 定位方法refresh() if (logger.i...

2019-01-25 17:10:40

阅读数 48

评论数 0

六、常用工具之Jackson

{ "rating": { "max": 10, "average": 8.4, "stars&quot...

2019-01-21 23:39:16

阅读数 21

评论数 0

十七、实现Windows中的文件名排序

(一)普通JAVA排序和Windows排序的异同   我们在使用File[] files = new File("E:\\demo\\novel").listFiles();从Windows中读取一个文件夹下的所有文件时,JDK会自动按照文件名进行排序,但是和W...

2019-01-13 15:19:10

阅读数 105

评论数 0

九、学习爬虫框架WebMagic(五)---为webmagic添加监控

(一)目的   设置页面下载成功、失败的监听器,方便失败的时候做一些善后处理,比如把失败的url再加入到爬取队列里面,这样就不会遗漏一些页面的爬取。   通过设置Request.CYCLE_TRIED_TIMES设置失败重试次数,可以强制把url加到待爬队列里面,避免去重机制把url看成已爬过的。...

2019-01-02 21:36:54

阅读数 62

评论数 0

十六、检测txt文件的编码格式

private static String detectCodeFormate(File file) { String charset = "GBK"; byte[] first3Bytes = new byte[3]; ...

2019-01-02 20:28:05

阅读数 29

评论数 0

八、学习爬虫框架WebMagic(四)---使用webmagic+Selenium爬取小说

一、案例说明   本案例以爬取某小说网站某本小说为例(PS:避免商业问题,这里不提小说网站名) 二、先期准备   关于 webmagic+Selenium 的相关依赖,参见 七、学习爬虫框架WebMagic(三)—webmagic+Selenium爬取动态页面 三、构建项目 (一)项目分析   在...

2019-01-01 20:02:02

阅读数 717

评论数 2

七、学习爬虫框架WebMagic(三)---webmagic+Selenium爬取动态页面

一、添加依赖 <!-- selenium-java客户端段 --> <dependency> ...

2018-12-30 22:02:36

阅读数 278

评论数 7

六、学习爬虫框架WebMagic(二)---使用注解编写爬虫

(一)案例 package org.pc.webmagic; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.model.ConsolePageModelPipeline; import us.codecr...

2018-12-30 15:36:38

阅读数 92

评论数 0

五、学习爬虫框架WebMagic(一)---入门案例

一、WebMagic简介   参见网上其他介绍。 二、添加依赖 <!-- webmagic 核心包 --> <dependency&gt...

2018-12-29 17:06:10

阅读数 106

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭