当前搜索:

[置顶] 历时一年,我的第一本书《从Lucene到Elasticsearch:全文检索实战》已出版!

一、前言决定在CSDN写博客的原因是想把自己解决过的问题、踩过的坑、总结出来的经验记录下来,作为编程之路的“笔记本”,同时也能给遇到同样问题的人提供参考、节省时间,写书的初衷也一样。二、缘起说一下写书的前因后果。中国科学院大学雁栖湖校区是很重要的一年,师资团队无可挑剔,每次上课去的稍微晚一点,300人的大教室都没有座位。对于计算机学院而言,大数据、机器学习、信息检索(搜索引擎)、算法、人工智能是最火...
阅读(425) 评论(1)

[置顶] About

关于博客...
阅读(183) 评论(0)

[置顶] [搜索]ElasticSearch Java Api(一) -创建索引

ElasticSearch JAVA API官网文档:https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/java-docs-index.html一、生成JSON创建索引的第一步是要把对象转换为JSON字符串.官网给出了四种创建JSON文档的方法:1.1手写方式生成String json = "{" +...
阅读(60480) 评论(42)

[置顶] scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)

一、选题工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类。 要求: 有相关搜索推荐、snippet 生成、结果预览 (鼠标移到相关结果, 能预览) 功能 二、项目线上访问地址 项目访问地址:http://120.27.46.201...
阅读(10504) 评论(12)

HDFS文件读写流程

一、HDFS体系结构HDFS作为分布式文件系统,使用的是master/slave体系结构,角色有三种: NameNode:为HDFS提供元数据服务,NameNode可以控制所有文件的操作,它会把所有的文件元数据存储在文件系统树中,文件信息在硬盘上保存成两个文件:命名空间镜像文件(fsimage)和修改日志文件(edit log)。此外,NameNode还保存一个文件,用来存储数据块在数据节点的分布...
阅读(25) 评论(0)

Mybatis开启数据库字段自动映射为驼峰命名

​ 遇到查询数据库表中的数据,其它字段都有内容,只有其中一个字段内容为null。mysql中该字段的命名为head_url,后来查明原因是需要在Mybatis开启数据库字段自动映射为驼峰命名。在mybatis-config.xml中设置mapUnderscoreToCamelCase属性为true: <!-- Globally enables or disables...
阅读(184) 评论(0)

Leetcode SQL题

176. Second Highest Salary Write a SQL query to get the second highest salary from the Employee table. +----+--------+ | Id | Salary | +----+--------+ | 1 | 100 | | 2 | 200 | | 3 | 300 |...
阅读(158) 评论(0)

Elasticsearch面试题系列

1.query是怎么分发到每个节点的?2.Elasticsearch使用上的优化有哪些?3.怎么避免脑裂?4.query和filter的区别?5.Elasticsearchy的缺点有哪些?你觉得可以在哪些地方进行改进?...
阅读(521) 评论(0)

Spark机器学习环境搭建

一、Spark环境搭建1.1 下载Spark下载地址:http://spark.apache.org/downloads.html 下载完成后解压即可。 把spark的运行目录加到环境变量:#Spark Home export SPARK_HOME=/usr/local/Cellar/spark-2.1.0-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/...
阅读(2705) 评论(2)

(spring全家桶十)Spring Statemachine有限状态机与地址分析

一、有限状态机有限状态机是一个特殊的有向图,包含节点和连接这些节点的弧。每个有限状态机都有开始、结束和若干个中间状态,每个弧上带有从一个状态进入下一个状态的条件。以一个简化的购物流程为例,开始和结束之间有待下单、待支付、待发货、待收货四个状态,从一个状态转向另外一个状态中间需要发送事件。有限状态机可以用于中文地址分析,识别地址的有限状态机如下。给出一个地址,如果当前状态是“省”,后面一个词组是二级市...
阅读(820) 评论(0)

Elasticsearch 集群优化总结

一、硬件层面优化配置(1) 合理选择服务器。Elasticsearch的运行对JDK版本、Linux内核、最小内存等都有一定的要求,在安装部署集群之前需要选择和Elasticsearch版本匹配的的服务器配置,同时也要根据业务量做集群规划。(2)提高Linux系统应用程序最大打开文件数。在启动Elasticsearch集群以前,增大机器的最大文件数,可以避免数据导入高峰时期打开文件过多异常的发生。...
阅读(2556) 评论(4)

Redis总结

Redis安装 、数据类型、Java API、基本命令...
阅读(553) 评论(1)

java作业调度框架Quartz

在软件开发中,很多时候需要在特定时间的时间执行某些操作,比如每天的凌晨三点、每周的周日、每个月的15号,Apache Quartz就是一个开源的作业调度框架,可以让计划的程序任务一个预定义的日期和时间运行。这篇博客记录一下Quartz的安装、重要概念和入门例子。一、Quartz下载Quartz官网:http://www.quartz-scheduler.org/以2.2.3版本为例,下载 Quart...
阅读(2423) 评论(9)

JVM运行时数据区和垃圾回收机制

最近参考各种资料,尤其是《深入理解Java虚拟机 JVM高级特性和最佳实践》,大牛之作。把最近学习的Java虚拟机组成和垃圾回收机制总结一下。你不会的都是新知识,学无止境,每天进步一点点。一、认识Java虚拟机在开始学Java之时,必做的一件事就是从Java官网下载并安装Java到我们的电脑之上,然后从HelloWorld开始走上编程的不归路。 上图中下载的Java安装包全称是Java SE De...
阅读(1598) 评论(5)

Java集合体系总结

Java集合体系总结,Iterator和ListIterator、ArrayList和LinkedList、HashSet和TreeSet、HashMap和TreeMap......
阅读(550) 评论(0)

Linux文件权限总结

一、用户组和用户Linux是一个多用户、多任务环境,如下图,GroupA代表一个用户组,GroupB代表一个用户组,root是超级用户。Linux中,任何一个文件都有User、Group和others3种身份的级别。以UserB为例,UserB属于GroupA,UserE相对于UserB就是others。二、文件属性查看文件属性的命令:ls -al在一个文件夹下使用上述命令:返回结果从左到右一共有7...
阅读(610) 评论(0)

elasticsearch聚合案例--分组、求最大值再求最大值的均值

#一、需求 A、B、C代表3个用户,第二列代表各自的得分,求A、B、C的最好成绩以及A、B、C最好成绩的均值A 10 A 11 A 13 B 11 B 11 B 12 C 10 C 10 C 11 C 15二、思路先terms分组,求最大值,最后加一个pipeline均值。一开始想用bucket_script解决,实验发现走不通,但是bucket_script在聚合结果之上操作很有用三、测试数据P...
阅读(1635) 评论(2)

Java正则表达式

java正则表达式工具与总结...
阅读(570) 评论(1)

Elasticsearch压力测试工具-Apache Jmeter

一、下载Jmeter下载地址:http://jmeter.apache.org/download_jmeter.cgi解压之后运行:/apache-jmeter-3.2/bin ./jmeter二、添加线程组依次店测试计划->添加->threads->线程组:在线程组中添加线程数和用户数,模拟用户访问: 10个用户,每个用户200个线程,循环10次。三、添加请求在线程组下,依次添加->Samp...
阅读(1639) 评论(0)

Elasticsearch 5.4 Query DSL

Elasticsearch提供了丰富的查询语句DSL,查询可分2类: Leaf Query:查询特定字段特定值的查询,可以单独使用,比如match查询、term查询、range查询。 Compound Query:组合查询,组合多个简单查询或者特殊查询。先占坑,有时间更新Y(^_^)Y...
阅读(1097) 评论(0)

IntelliJ IDEA For Mac 快捷键

IntelliJ IDEA For Mac 快捷键 Mac键盘符号和修饰键说明 一Editing编辑 二SearchReplace查询替换 三Usage Search使用查询 四Compile and Run编译和运行 五Debugging调试 六Navigation导航 七Refactoring重构 八VCSLocal History版本控制本地历史记录 九Live Templates动态代码模板...
阅读(787) 评论(0)

LeetCode Array

LeetCode数组习题26.Remove Duplicates from Sorted Array题目描述:Given a sorted array, remove the duplicates in place such that each element appear only once and return the new length. Do not allocate extra spac...
阅读(571) 评论(0)
204条 共11页1 2 3 4 5 ... 下一页 尾页
    《从Lucene到Elasticsearch:全文检索实战》
    Lucene、ES、ELK开发交流群:370734940
    Lucene、ES、ELK开发交流
    个人资料
    • 访问:815249次
    • 积分:8412
    • 等级:
    • 排名:第2659名
    • 原创:196篇
    • 转载:2篇
    • 译文:6篇
    • 评论:446条
    StackOverFlow
    http://stackoverflow.com/users/6526424
    统计
    博客专栏
    文章分类
    最新评论