自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(102)
  • 收藏
  • 关注

转载 elasticsearch function_score Query——文档排序结果的最后一道墙

function_score QueryThefunction_scorequeryis the ultimate tool for taking control of the scoring process.It allows you to apply a function to each document that matches the main...

2017-02-28 20:28:00 171

转载 矩阵管理——和visitor模式没有本质区别,都是为了避免资源重复

矩阵管理中的员工是双线汇报的模式。其上司有两个,一个是流程上司,一个是专业上司。流程上司负责你的日常考核,专业上司负责你的晋升和任免。管理条件相对于矩阵管理的矩阵式组织,适合于某些较为庞大的全球性公司。比如某家跨国公司有三块核心项目——针对企业用户的服务器业务,针对家庭用户的电脑产品、针对金融系统的软件开发业务。如果按照传统的组织架构,企业组织架构将会十分庞大。比如在三个...

2017-02-28 09:30:00 263

转载 矩阵管理——本质是职能分工,例如所有部门都执行财务部门制定的财务制度而不会各自为政...

矩阵管理概述  矩阵管理是一种组织结构的管理模式,由专门从事某项工作的工作小组形式发展而来。矩阵管理结构中的人员分别来自不同的部门,有着不同技能、不同知识和不同背景,大家为了某个特定的任务(项目)而共同工作。矩阵管理的类型  矩阵管理分为多种类型,其一为基本型,另一种矩阵管理属于局部型。  1.基本型  以组织中的人事、总务、财务等功能而言,各...

2017-02-28 09:15:00 296

转载 linkedin databus介绍——监听数据库变化,有新数据到来时通知其他消费者app,新数据存在内存里,多份快照...

概要结构如下图。图中显示:Search Index和Read Replicas等系统是Databus的消费者。当主OLTP数据库发生写操作时,连接其上的中继系统会将数据拉到中继中。签入在Search Index或是缓存中的Databus消费者客户端,就会从中继中拉出数据,并更新索引或缓存。Databus提供如下功能:来源独立:Databus支持多种数据来源的变更抓取,...

2017-02-27 20:29:00 206

转载 ES忽略TF-IDF评分——使用constant_score

Ignoring TF/IDFSometimes we just don’t care about TF/IDF.All we want to know is that a certain word appears in a field. Perhaps we are searching for a vacation home and we want to ...

2017-02-27 19:38:00 545

转载 ES设置字段搜索权重——Query-Time Boosting

Query-Time BoostingInPrioritizing Clauses, we explainedhow you could use theboostparameter at search time to give one query clause more importance than another. For instance:...

2017-02-27 19:23:00 874

转载 lucene内置的评分函数

For multiterm queries, Lucene takestheBoolean model,TF/IDF, and thevector space modeland combinesthem in a single efficient package that collects matching documents and scores them as...

2017-02-27 19:16:00 86

转载 ES搜索排序,文档相关度评分介绍——Vector Space Model

Vector Space ModelThevector space modelprovides a way ofcomparing a multiterm query against a document. The output is a single score that represents how well the document matches the que...

2017-02-27 14:52:00 100

转载 ES搜索排序,文档相关度评分介绍——TF-IDF—term frequency, inverse document frequency, and field-length norm—are calcu...

Theory Behind Relevance ScoringLucene (and thus Elasticsearch) uses theBoolean modelto find matching documents,and a formula called thepractical scoring functionto calculate re...

2017-02-27 14:46:00 126

转载 ES搜索排序,文档相关度评分介绍——Field-length norm

Field-length normHow long is the field?The shorter the field, thehigherthe weight. If a term appears in a short field,such as atitlefield, it is more likely that the content of that...

2017-02-27 14:45:00 243

转载 ES 搜索结果expalain 可以类似数据库性能调优来看排序算法的选择

When we run a simpletermquery withexplainset totrue(seeUnderstanding the Score), you will see that the only factors involved in calculating the score are the ones explained in the precedin...

2017-02-27 12:21:00 91

转载 Lucene默认的打分算法——ES默认

改变Lucene的打分模型随着Apache Lucene 4.0版本在2012年的发布,这款伟大的全文检索工具包终于允许用户修改默认的基于TF/IDF原理的打分算法。Lucene API变得更加容易修改和扩展打分公式。但是,对于文档的打分计算,Lucene并只是允许用户在打分公式上修修补补,Lucene 4.0推出了更多的打分模型,从根本上改变了文档的打分公式,允许用户使用不同的打分...

2017-02-27 11:27:00 200

转载 ES 相似度算法设置(续)

Tuning BM25One of the nice features of BM25 is that, unlike TF/IDF, it has two parameters that allow it to be tuned:k1This parameter controls how quickly an increase in term frequency res...

2017-02-27 11:14:00 591

转载 ES BM25 TF-IDF相似度算法设置——

Pluggable Similarity AlgorithmsBefore we move on from relevance and scoring, we will finish this chapter with a more advanced subject: pluggable similarity algorithms.While Elasticsearch use...

2017-02-27 11:13:00 449

转载 Elasticsearch mapping文档相似性算法

Elasticsearch allows you to configure a scoring algorithm orsimilarityper field. Thesimilaritysetting provides a simple way of choosing a similarity algorithm other than the default TF/IDF, su...

2017-02-27 11:00:00 228

转载 护照填写注意事项

参考样表:http://wenku.baidu.com/link?url=-E1v4utcUqdLE5Wh-psfr5AdpWKjpSs9MIGzAH__rPVj9Ue934WNiyPyUbRUvh61_gTvlJ9qs8JmohHf4cNxlxtRoAjMB10KLqaJsHeAOg7http://www.docin.com/p-1069846753.htmlhttp:/...

2017-02-26 20:01:00 116

转载 美国会议签证——我是正当理由去美国,我能支付(或有人为我支付)我在美国期间的所有费用,办完事我肯定回来, 邀请信,行程表这些材料齐全即可...

急!有去美国参加会议签证经验的请进啊~~~~hiki来自签证版问题5月从英国想去参加个会议,因为以前被拒过,这次特紧张签过的xdjm能分享下经验嘛?除了网站上要的材料,还需要别的嘛?谢谢大家了7sweetsong准备好使馆要求的材料,还有你认为所有能证明你和现在居住国有strong tie的东西,比如工...

2017-02-25 15:53:00 96

转载 程序猿老公去米国参加 WWDC,顺便想带渡老婆蜜月,如何办签证?

这个问题要拆开描述比较好:1. 老公是苹果开发者,抽中了2014 WWDC购票机会,打算自费去参加。如果自己成行,应该办何种签证?2. 顺带,两人新婚半年还未安排蜜月,打算提前几天过去先游览一下西海岸,就当做蜜月了。如果一起签证,对办理是否有影响?多谢指教~转自:https://www.v2ex.com/t/108280 5Pandr...

2017-02-25 10:04:00 116

转载 B1/B2签证的有效期——对于B1/B2签证,停留期最长不超过183天

一、关于签证有效期首先我们要知道当我们历经困难从签证官手里拿到自己的签证的时候,签证上面有个时间这个我们叫做签证有效期。B1/B2一般是一年多次往返的,这个只跟你申请的签证类型有关,与你填表的时候写的预计赴美时间和在美停留时间实际上关系不大!当B1/B2签证被美国外交部批准,一般来说会是一年多次往返(visa上会注明multiple)。这个一年是指从签证获准之日起后的365天,都是签证有...

2017-02-25 09:55:00 233

转载 elasticsearch _source字段的一些说明

_sourcefieldThe_sourcefield contains the original JSON document body that was passed at index time. The_sourcefield itself is not indexed (and thus is not searchable), but it is stored ...

2017-02-24 16:32:00 276

转载 elasticsearch ——id字段说明,内部是_uid

_idfieldEach document indexed is associated with a_type(seethe section called “Mapping Typesedit”) and an_id. The_idfield is not indexed as its value can be derived automatically from...

2017-02-24 11:32:00 323

转载 企业安全建设之搭建开源SIEM平台(上)

前言SIEM(security information and event management),顾名思义就是针对安全信息和事件的管理系统,针对大多数企业是不便宜的安全系统,本文结合作者的经验介绍下如何使用开源软件搭建企业的SIEM系统,数据深度分析在下篇。SIEM的发展对比Gartner2009年和2016年的全球SIEM厂商排名,可以清楚看出,基于大...

2017-02-24 10:12:00 335

转载 江西鹰潭、江西移动与华为战略合作:共推物联网——物联网的世界要到来了...

江西鹰潭、江西移动与华为战略合作:共推物联网科技边角料 2017-01-10 12:42:21 华为 物联网 阅读(2889) 评论(0)   日前江西鹰潭市人民政府与华为公司、江西移动在南昌签署了窄带物联网战略合作框架协议。三方发挥各自优势,利用物联网、云计算技术,促 进传统产业转型升级、培育新动能、发展新经济。江西省省委常委、常务副省长毛伟明,江西省委...

2017-02-24 09:50:00 159

转载 Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引

Luke 5 发布,可视化 Lucene 索引查看工具oschina发布于2015年08月31日这是一个主要版本,该版本支持 Lucene 5.2.0。它支持 elasticsearch 1.6.0(Lucene的4.10.4)已解决的问题:#20增加支持重建索引并不会存储领域,不暴露位置的字段值。Pull Requests:#23 Elasticsearch 支持...

2017-02-23 15:07:00 477

转载 Apache Flink vs Apache Spark——感觉二者是互相抄袭啊 看谁的好就抄过来 Flink支持在runtime中的有环数据流,这样表示机器学习算法更有效而且更有效率...

Apache Flink是什么  Flink是一款新的大数据处理引擎,目标是统一不同来源的数据处理。这个目标看起来和Spark和类似。没错,Flink也在尝试解决 Spark在解决的问题。这两套系统都在尝试建立一个统一的平台可以运行批量,流式,交互式,图处理,机器学习等应用。所以,Flink和Spark的目 标差别并不大,他们最主要的区别在于实现的细节,后面我会重点从不同的角度...

2017-02-23 14:57:00 72

转载 druid相关的时间序列数据库——也用到了倒排相关的优化技术

Cattell [6] maintains a great summary about existing ScalableSQL and NoSQL data stores. Hu [18] contributed another greatsummary for streaming databases. Druid feature-wise sits some-where be...

2017-02-23 14:31:00 116

转载 时间序列数据库——索引用ES、聚合分析时加载数据用什么?docvalues的列存储貌似更优优势一些。那分布式计算呢?ES做...

分布式计算分布式聚合如何做得快Elasticsearch/Lucene从最底层就支持数据分片,查询的时候可以自动把不同分片的查询结果合并起来。Elasticsearch的document都有一个uid,默认策略是按照uid 的 hash把文档进行分片。一个Elasticsearch Index相当于一个MySQL里的表,不同Index的数据是物理上隔离开来的。Elasti...

2017-02-23 11:42:00 114

转载 时间序列数据库——索引用ES、聚合分析时加载数据用什么?docvalues的列存储貌似更优优势一些...

加载如何利用索引和主存储,是一种两难的选择。选择不使用索引,只使用主存储:除非查询的字段就是主存储的排序字段,否则就需要顺序扫描整个主存储。选择使用索引,然后用找到的row id去主存储加载数据:这样会导致很多碎片化的随机读操作。(ES检索出来的一堆ID,然后根据这些ID去数据库里取东西就是碎片化的磁盘操作!)没有所谓完美的解决方案。MySQL支持索引,一般索引检...

2017-02-23 11:37:00 85

转载 时间序列数据库概览——基于文件(RRD)、K/V数据库(influxDB)、关系型数据库...

一般人们谈论时间序列数据库的时候指代的就是这一类存储。按照底层技术不同可以划分为三类。直接基于文件的简单存储:RRD Tool,Graphite Whisper。这类工具附属于监控告警工具,底层没有一个正规的数据库引擎。只是简单的有一个二进制的文件结构。基于K/V数据库构建:opentsdb(基于hbase),blueflood,kairosDB(基于cassandra),i...

2017-02-23 11:12:00 141

转载 ES索引瘦身 禁用_source后需要设置field store才能获取数据 否则无法显示搜索结果...

在默认情况下,开启_all和_source 这样索引下来,占用空间很大.根据我们单位的情况,我觉得可以将需要的字段保存在_all中,然后使用IK分词以备查询,其余的字段,则不存储.并且禁用_source字段.(也可以通过_source includes或者excludes 指定或者排除字段){ "mappings": { ...

2017-02-23 11:02:00 191

转载 Elasticsearch: Five Things I was Doing Wrong

Elasticsearch: Five Things I was DoingWrongUpdate: Also check out my series on scaling Elasticsearch.I’ve been working with Elasticsearch off and on for over a year, but recently I attende...

2017-02-23 10:50:00 103

转载 ES禁用_source不会影响聚合

From Elasticsearch's website:The _source field contains the original JSON document body that was passed at index time. The _source field itself is not indexed (and thus is not searchable), ...

2017-02-23 10:38:00 411

转载 Anomaly Detection for Time Series Data with Deep Learning——本质分类正常和异常的行为,对于检测异常行为,采用预测正常行为方式来做...

A sample network anomaly detection projectSuppose we wanted to detect network anomalies with the understanding that an anomaly might point to hardware failure, application failure, or an intrus...

2017-02-23 09:56:00 354

转载 深度学习在gilt应用——用图像相似性搜索引擎来商品推荐和服务属性分类

机器学习起源于神经网络,而深度学习是机器学习的一个快速发展的子领域。最近的一些算法的进步和GPU并行计算的使用,使得基于深度学习的算法可以在围棋和其他的一些实际应用里取得很好的成绩。时尚产业是深度学习的目标领域之一。闪购网站Gilt就一直在使用深度学习来进行产品推荐和服装的属性分类。裙子样式是通过Facebook的Torch库来自动地识别其适用场合、裙子轮廓、领口和袖子类型的。Tor...

2017-02-23 09:24:00 146

转载 Linus Torvalds: 成功的项目源于99%的汗水与1%的创新

2017年2月15日,在加利福尼亚州的开源领袖峰会上,由Linux基金会执行董事Jim Zemlin进行的一次采访中,Torvalds讨论了他如何管理Linux内核的开发以及他对工作的态度。Linus Torvalds认为,科技行业对创新的颂扬是一种自鸣得意,沾沾自喜,以自我为中心。他更直白地表示:“行业所说的这么多的创新都是扯淡,”他说,“任何人都可以创新,不要把‘...

2017-02-23 09:17:00 115

转载 redis实现分布式锁——核心 setx+pipe watch监控key变化-事务

如何设计一把分布式锁我们用 redis 来实现这把分布式的锁,redis 速度快、支持事务、可持久化的特点非常适合创建分布式锁。分布式环境中如何消除网络延迟对锁获取的影响锁,简单来说就是存于 redis 中一个唯一的 key。一般而言,redis 用 set 命令来完成一个 key 的设置(加锁),使用 get 命令获取 key 的信息(检查锁)。由于网络延迟的存在,简单的使...

2017-02-22 20:22:00 210

转载 分布式锁的实现方式——ACID数据库、缓存或者是zk

针对分布式锁的实现,目前比较常用的有以下几种方案:基于数据库实现分布式锁 基于缓存(redis,memcached,tair)实现分布式锁 基于Zookeeper实现分布式锁在分析这几种实现方案之前我们先来想一下,我们需要的分布式锁应该是怎么样的?(这里以方法锁为例,资源锁同理)可以保证在分布式部署的应用集群中,同一个方法在同一时间只能被一台机器上的一个线程执行。...

2017-02-22 20:12:00 73

转载 ES索引瘦身 压缩——_source _all 均disable filed store为no,引入第三方DB存储原始数据,去掉pos倒排和doc_values,强制定期merge segments,...

原始数据:835MBES 设置了_source _all disabled 且设置了仅仅存docs倒排Wed Feb 22 11:58:27 CST 2017Before size:1 /home/bone/elasticsearch-2.4.1/data/OK, waiting...0After size:435 /home/bone/elasticsear...

2017-02-22 18:20:00 89

转载 elasticsearch的store属性跟_source字段——如果你的文档长度很长,存储了_source,从_source中获取field的代价很大,你可以显式的将某些field的store属性设...

转自:http://kangrui.iteye.com/blog/2262860众所周知_source字段存储的是索引的原始内容,那store属性的设置是为何呢?es为什么要把store的默认取值设置为no?设置为yes是否是重复的存储呢?我们将一个field的值写入es中,要么是想在这个field上执行search操作(不知道具体的id),要么执行retrieve操作(根...

2017-02-22 14:24:00 63

转载 ES field store yes no 区别——可以设置为false,如果_source有的话

storeBy default, field values areindexedto make them searchable, but they are notstored. This means that the field can be queried, but the original field value cannot be retrieved.Usua...

2017-02-22 14:06:00 190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除