关闭

[置顶] logstash处理时区问题

公司线上日志是通过logstash接收并上传的,使用版本是logstash2.3,发现@timestamp经常少8个小时; 处理逻辑如下,无需修改插件源码 input { stdin {} } output { stdout { codec => rubydebug } } filter { date { match => ["message","UNIX_MS"]#message...
阅读(242) 评论(0)

[置顶] 利用elasticsearch dump插件完成数据迁移

最近工作中发现有一个es集群不稳定,影响了线上其他项目的使用。遂考虑迁移索引到其他集群上; 网上搜索到有多重方案: 1.查询并导出数据 2.目录复制 3.采用snapshot快照 各种方案各有优劣: 第一种:优点:支持个性化操作  缺点:所有的使用脱离不了api,且在维护数据的同时需要维护mapping映射等信息; 第二种:优点:简单粗暴   缺点:不同集群配置可能不同,可能造成索引...
阅读(205) 评论(0)

[置顶] nginx负载均衡配置

nginx请求重定向和负载均衡配置 请求重定向 server { listen 8088; location / {    proxy_pass http://localhost:8080 } } 负载均衡 server { listen 8088; upstream balancer {...
阅读(356) 评论(0)

[置顶] elasticsearch索引自动维护

采用elasticsearch-curator工具完成索引维护 按时间+索引前缀删除索引 首先确认安装了python环境 sudo  easy_install pip pip install elasticsearch_curator curator_cli --version确认安装成功 最后执行 curator_cli --host 127.0.0.1 --port...
阅读(407) 评论(0)

[置顶] Linux Bash Shell字符串分割substring等

近期在做持续集成项目,因为要做高使用性的平台,公司项目组各业务线打包流程不尽相同,采用了业务藏入脚本的方式,原有java可实现的操作写入了脚本中。 脚本开发中遇到的问题是:原java中的字符串分割操作(substring indexOf等)不知道怎么处理(比如/a/b/c/d.txt我想知道文件的名称) 查询相关资料得知,shell中可以采用标识符来做分割字符串,包括substring(0,i...
阅读(1847) 评论(0)

[置顶] 文件实时同步到Linux机器

近期做持续集成打包功能,打包服务器和应用服务器不在同一台机器,为了可以正常下载,我们有一个文件同步的需求 使用了rsync做相关的同步操作; 遇到的问题是同步的时机不好掌握,在手动操作了一段时间rsync之后,觉得做一个根据文件夹变更执行同步操作更高效 网上看到fswatch这个工具,他可以监控文件夹文件的变更,同时有相关的回调, 格式如下: fswatch -o ~/path/to/w...
阅读(376) 评论(0)

[置顶] 一步一步跟我学习hadoop(7)----hadoop连接mysql数据库执行数据读写数据库操作

为了方便 MapReduce 直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。     运行MapReduce时候报错:java.io.IOException: c...
阅读(5125) 评论(1)

[置顶] 一步一步跟我学习hadoop(6)----hadoop利用FileSystem API 执行hadoop文件读写操作

hadoop文件系统较普通的文件系统差异性主要在于其容错性,普通文件系统不能直接查看hadoop的hdfs对应的文件信息。文件存储起来之后,我们是需要可以访问才能够体现它的价值,hadoop提供了FileSystem API来进行hadoop的文件读写。     本节我是对照hadoop的API中的FileSystem类写的demo,包含了一些主要的方法,更多的需要从相关api中进行查询编写。...
阅读(2248) 评论(0)

[置顶] 一步一步跟我学习hadoop(5)----hadoop Map/Reduce教程(2)

Map/Reduce用户界面     本节为用户采用框架要面对的各个环节提供了详细的描述,旨在与帮助用户对实现、配置和调优进行详细的设置。然而,开发时候还是要对应着API进行相关操作。     首先我们需要了解Mapper和Reducer接口,应用通常需要提供map和reduce方法以实现他们。     接着我们需要对JobConf, JobClient,Partitioner,Output...
阅读(1469) 评论(0)

[置顶] 一步一步跟我学习hadoop(4)----hadoop Map/Reduce教程(1)

Hadoop Map/Reduce说明     hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。     一个Map/Reduce作业经常讲数据集切分成独立的块,这些块通过map任务并行处理,框架对map的输出进行排序,排序结果会被reduce以输入参数进行接收。通常作...
阅读(1540) 评论(0)

[置顶] 一步一步跟我学习hadoop(3)----hadoop命令手册

上节我们学习了hadoop的eclipse插件安装和wordcount程序的运行,本篇对hadoop命令进行一个系统的了解 hadoop的命令通过HADOOP_HOME\bin\hadoop命令触发,我们可以在命令行执行 hadoop --help 来提示用户的命令输入。 hadoop命令分为两大类:用户命令和管理命令,以下是hadoop命令的详细解读 0 概述:...
阅读(1341) 评论(0)

[置顶] 一步一步跟我学习hadoop(2)----hadoop eclipse插件安装和运行wordcount程序

本博客hadoop版本是hadoop  0.20.2。 安装hadoop-0.20.2-eclipse-plugin.jar 下载hadoop-0.20.2-eclipse-plugin.jar文件,并添加到eclipse插件库,添加方法很简单:找到eclipse安装目录下的plugins目录,直接复制到此目录下,重启eclipse依次点击eclipse工具栏的window-----sho...
阅读(1762) 评论(1)

[置顶] 一步一步跟我学hadoop(1)----hadoop概述和安装配置

这几年云计算大数据很火,借这个东风,今天开始学习apache的分布式计算框架hadoop,希望不要太落后。 Apache Hadoop是一个在大型集群的商品硬件上运行的应用程序的框架。Hadoop框架透明的提供了应用程序的可靠性和数据访问的方法。Hadoop实现了Map/Reduce计算模型,每个应用程序被切分成许多碎片化的工作段,每个段可在任何急群众的节点(重复)执行。此外,它还提供了用以在计算节点中存储数据的分布式文件系统HDFS,HDFS提供了节点间的高度聚合能力。MapReduce和Hadoop分布...
阅读(2118) 评论(6)

[置顶] JAVA 集合框架优化之list.removeAll大数据量优化

今天在公司做项目需要求两个集合的补集,考虑到collection类有removeAll方法,决定采用这种方式;结果程序一直卡在那儿不动了; 数据量是两个集合的数据差不多都有60万,直接导致程序处于假死状态(程序当然是还在运行); 出现问题始终要解决的,我又给程序修改为先用retainAll求交集,然后再removeAll的方式,效果不明显(事实是也假死了),我的应用场景还要求实时性,没办法只能...
阅读(1986) 评论(0)

[置顶] 一步一步跟我学习lucene(19)---lucene增量更新和NRT(near-real-time)Query近实时查询

这两天加班,不能兼顾博客的更新,请大家见谅。 有时候我们创建完索引之后,数据源可能有更新的内容,而我们又想像数据库那样能直接体现在查询中,这里就是我们所说的增量索引。对于这样的需求我们怎么来实现呢?lucene内部是没有提供这种增量索引的实现的; 这里我们一般可能会想到,将之前的索引全部删除,然后进行索引的重建。对于这种做法,如果数据源的条数不是特别大的情况下倒还可以,如果数据源的条数特别大的...
阅读(2103) 评论(1)

[置顶] 一步一步跟我学习lucene(18)---lucene索引时join和查询时join使用示例

了解sql的朋友都知道,我们在查询的时候可以采用join查询,即对有一定关联关系的对象进行联合查询来对多维的数据进行整理。这个联合查询的方式挺方便的,跟我们现实生活中的托人找关系类似,我们想要完成一件事,先找自己的熟人,然后通过熟人在一次找到其他,最终通过这种手段找到想要联系到的人。有点类似于”世间万物皆有联系“的感觉。...
阅读(1890) 评论(0)

[置顶] 一步一步跟我学习lucene(17)---lucene搜索之expressions表达式处理

有时候我们在做lucene的结果展示的时候可能需要对多个列的内容进行计算,根据多个field对应的值做数值方面的运算。 lucene自4.6版本起,提供了用于运算的expression模块; expression分为两部分: org.apache.lucene.expressions:提供了字段绑定和相关的表达式参数传递的功能;org.apache.lucene.expressions....
阅读(1744) 评论(0)

[置顶] 一步一步跟我学习lucene(16)---lucene搜索之facet查询查询示例(2)

本篇是接一步一步跟我学习lucene(14)---lucene搜索之facet索引原理和facet查询实例(http://blog.csdn.net/wuyinggui10000/article/details/45973769),上篇主要是统计facet的dim和每个种类对应的数量,个人感觉这个跟lucene的group不同的在于facet的存储类似于hash(key-field-value)形式的,而group则是单一的map(key-value)形式的,虽然都可以统计某一品类的数量,显然facet更具...
阅读(1422) 评论(0)

[置顶] java redis使用之利用jedis实现redis消息队列

应用场景 最近在公司做项目,需要对聊天内容进行存储,考虑到数据库查询的IO连接数高、连接频繁的因素,决定利用缓存做。 从网上了解到redis可以对所有的内容进行二进制的存储,而java是可以对所有对象进行序列化的,序列化的方法会在下面的代码中提供实现。 序列化 java...
阅读(6048) 评论(2)

[置顶] 一步一步跟我学习lucene(15)---java读取word excel pdf及lucene搜索之正则表达式查询RegExQuery和手机邮箱查询示例

今天快下班的时候收到了一个群友的问题,大意是读取文本文件中的内容,找出文件中的手机号和邮箱,我自己写了一个读取文档的内容的正则查询示例,用于匹配文件中是否含有邮箱或者手机号,这个等于是对之前的文本处理工具的一个梳理,同时结合lucene内部提供的正则匹配查询RegexQuery; 废话不多说了,直接上代码,这里先对文件内容读取分类处理,分为pdf word excel 和普通文本四类,不同的种类...
阅读(2216) 评论(1)

[置顶] 一步一步跟我学习lucene(14)---lucene搜索之facet查询原理和facet查询实例

我们在浏览网站的时候,经常会遇到按某一类条件查询的情况,这种情况尤以电商网站最多,以天猫商城为例,我们选择某一个品牌,系统会将该品牌对应的商品展示出来,效果图如下: 如上图,我们关注的是品牌,选购热点等方面,对于类似的功能我们用lucene的term查询当然可以,但是在数据量特别大的情况下还用普通查询来实现显然会因为FSDirectory.open等耗时的操作造成查询效率的低下,同时普通查询是全...
阅读(2294) 评论(0)

[置顶] 一步一步跟我学习lucene(13)---lucene搜索之自定义排序的实现原理和编写自己的自定义排序工具

自定义排序说明 我们在做lucene搜索的时候,可能会需要排序功能,虽然lucene内置了多种类型的排序,但是如果在需要先进行某些值的运算然后在排序的时候就有点显得无能为力了; 要做自定义查询,我们就要研究lucene已经实现的排序功能,lucene的所有排序都是要继承FieldComparator,然后重写内部实现,这里以IntComparator为例子来查看其实现;...
阅读(2631) 评论(1)

[置顶] 一步一步跟我学习lucene(12)---lucene搜索之分组处理group查询

grouping介绍 我们在做lucene搜索的时候,可能会用到对某个条件的数据进行统计,比如统计有多少个省份,在sql查询中我们可以用distinct来完成类似的功能,也可以用group by来对查询的列进行分组查询。在lucene中我们实现类似的功能怎么做呢,比较费时的做法时我们查询出所有的结果,然后对结果里边的省份对应的field查询出来,往set里边放,显然这种做法效率低,不可取;luc...
阅读(3423) 评论(0)

[置顶] 一步一步跟我学习lucene(11)---lucene搜索之高亮显示highlighter

highlighter介绍 这几天一直加班,博客有三天没有更新了,望见谅;我们在做查询的时候,希望对我们自己的搜索结果与搜索内容相近的地方进行着重显示,就如下面的效果 这里我们搜索的内容是“一步一步跟我学习lucene”,搜索引擎展示的结果中对用户的输入信息进行了配色方面的处理,这种区分正常文本和输入内容的效果即是高亮显示; 这样做的好处: 视觉上让人便于查找有搜索对应的文本块;界面展...
阅读(3204) 评论(0)

[置顶] 一步一步跟我学习lucene(10)---lucene搜索之联想词提示之suggest原理和应用

昨天了解了suggest包中的spell相关的内容,主要是拼写检查和相似度查询提示; 今天准备了解下关于联想词的内容,lucene的联想词是在org.apache.lucene.search.suggest包下边,提供了自动补全或者联想提示功能的支持; InputIterator说明 InputIterator是一个支持枚举term,weight,payload三元组的供suggester使...
阅读(2589) 评论(3)

[置顶] 一步一步跟我学习lucene(9)---lucene搜索之拼写检查和相似度查询提示(spellcheck)

suggest应用场景 用户的输入行为是不确定的,而我们在写程序的时候总是想让用户按照指定的内容或指定格式的内容进行搜索,这里就要进行人工干预用户输入的搜索条件了;我们在用百度谷歌等搜索引擎的时候经常会看到按键放下的时候直接会提示用户是否想搜索某些相关的内容,恰好lucene在开发的时候想到了这一点,lucene提供的suggest包正是用来解决上述问题的。 suggest包联想词相关介绍...
阅读(2313) 评论(0)

[置顶] 一步一步跟我学习lucene(8)---lucene搜索之索引的查询原理和查询工具类(支持分页)示例

昨天我们了解了lucene搜索之IndexSearcher构建过程(http://blog.csdn.net/wuyinggui10000/article/details/45698667),对lucene的IndexSearcher有一个大体的了解,知道了怎么创建IndexSearcher,就要开始学会使用IndexSearcher进行索引的搜索,本节我们学习索引的查询原理和根据其相关原理写索引查询工具类;加入了对分页查询的支持以及多目录索引查询的功能...
阅读(2642) 评论(0)

[置顶] 一步一步跟我学习lucene(7)---lucene搜索之IndexSearcher构建过程

最近一直在写一步一步跟我学习lucene系列(http://blog.csdn.net/wuyinggui10000/article/category/3173543),个人的博客也收到了很多的访问量,谢谢大家的关注,这也是对我个人的一个激励,O(∩_∩)O哈哈~,个人感觉在博客的编写过程中自己收获了很多,我会一直继续下去,在工作的过程中自己也会写出更多类似系列的博客,也算是对自己只是...
阅读(3078) 评论(1)

[置顶] 一步一步跟我学习lucene(6)---lucene索引优化之多线程创建索引

这两天工作有点忙,博客更新不及时,请大家见谅; 前面了解到lucene在索引创建的时候一个IndexWriter获取到一个读写锁,这样势在lucene创建大数据量的索引的时候,执行效率低下的问题; 查看前面文档一步一步跟我学习lucene(5)---lucene的索引构建原理可以看出,lucene索引的建立,跟以下几点关联很大; 磁盘空间大小,这个直接影响索引的建立,甚至会造成索引写入提...
阅读(6588) 评论(1)

[置顶] 一步一步跟我学习lucene(5)---lucene的索引构建原理

lucene创建索引的原理 IndexWriter的addDocument方法详解 今天看了IndexWriter类的addDocument方法,IndexWriter对此方法的说明如下: Adds a document to this index. Note that if an Exception is hit (for example disk full) then the ind...
阅读(2357) 评论(0)

[置顶] 一步一步跟我学习lucene(4)---lucene的中文分词器jcseg和IK Analyzer分词器及其使用说明

为什么要使用lucene中文分词器 在lucene的开发过程中,我们常会遇到分词时中文识别的问题,lucene提供了  lucene-analyzers-common-5.0.0.jar包来支持分词,但多的是对英国,法国,意大利等过语言的支持, 因此我们需要引入中文分词的概念。 各种中文分词器及其对比 jcseg中文分词器 jcseg是使用Java开发的一款开源的中文分词器, 使...
阅读(3718) 评论(1)

[置顶] 一步一步跟我学习lucene(3)---lucene的analysis相关和自定义分词器

lucene分词相关总结和自定义分词器已经停止词词典的维护,自定义分词...
阅读(2751) 评论(0)

[置顶] 一步一步跟我学习lucene(2)---lucene的各种Field及其排序

lucene的各种Field及公共接口,Field使用示例,各种Field的特性,lucene排序...
阅读(5339) 评论(7)

[置顶] 一步一步跟我学习lucene(1)---lucene的IndexWriter对象创建和索引策略的选择

lucene的索引构建原理,不同类型的FSDirectory和创建机制,lucene优点...
阅读(4039) 评论(1)

Mysql 5.7 Root密码忘记回复(重置root密码)

mysql因其开源且易用的特点占用了数据库的大半壁江山,工作中也算是应用的最多的数据库软件; 下载了个Mac版的mysql server,版本为5.7.11,傻瓜式的安装,安装成功后提示初始密码弹窗窗口; 机器上安装的数据库软件是Sequel Pro,登录一只提示failure,从网上查看MySQL Workbench可以 解决(http://blog.sina.com.cn/s/blog_...
阅读(986) 评论(0)

ColorBox使用及处理流读取图片问题

jquery.ColorBox确实是一个非常强大的jquery弹出层插件,可以类似于幻灯片效果来展示图片; 正常的,我们使用colorBox需要引入jquery类库和colorbox的css文件 在页面中使用colorbox代码如下 Photo_1 Photo_2 Photo_3 $('a.gallery').colorbox(); 以上为常规用法 我...
阅读(1282) 评论(0)

java实现类似与redis的hash存储操作

最近做一个报表系统,统计全天的指定时间的数据,数据又分了好几类,数据模型如下 time         typeA        valueA time         typeB        valueB 联想到此种数据存储模式跟redis的hash操作类似,key  ------   field  --------value式的存储结构,决定采用java进行抽象 key选择用Stri...
阅读(3000) 评论(0)
44条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:93951次
    • 积分:1401
    • 等级:
    • 排名:千里之外
    • 原创:42篇
    • 转载:2篇
    • 译文:0篇
    • 评论:27条
    文章分类
    最新评论