2015年11月_机器不学习_

11月

原创 Lucene系列-index弹性扩展

Lucene系列-index扩展Shard与ReplicaShard：index数据分片.当索引数据到达百亿级别的,单份数据索引读取和搜索都是非常耗时间的,即使在用earlytermination的情况下,latency也在100ms左右. 数据分片成shard,可以快速的提高搜索效率.Replica：shard的备份，在搜索QPS较高的时候,Replica可以提供搜索的吞吐量. 一般包含一个p

2015-11-19 11:46:46 798

原创 lucene系列-facet搜索

facet搜索,方面搜索,电商中使用的非常多.例如统计field中值的分组分布情况, 只是每个域值中的命中数量.facet搜索主要用于:1.Facet Counting facet域值统计 2.Facet Associations facet域值分类匹配度.描述一个doc属于某一个category的程度. 3.Multiple Facet Requests 了解多个fecet的结果分布

2015-11-16 17:06:42 2013

原创 Lucene系列-Fieldcache

FiledCache介绍 Lucene作为列缓存, 可以获取设置了Filed.Store.Yes上的正排数据信息.通常IndexSearcher.doc(docId)获得Document的所有域值,访问速度比较慢.但是通过FieldCache读取doc的分片信息,速度可以提升很多. 注意:FieldCache并非在存储域中读取，而是在索引域中读取，从而不必构造Document对象，要求此索引域是

2015-11-16 13:12:31 1552

DocValues简介 Lucene索引的存储一般都是以倒排拉链的方式(term-doc), 但是在搜索相关功能处理的时候,如排序,高亮,摘要信息的获取,需要通过文档docid找到相应的正排信息,在Lucene4.0中,引入了一个新字段类型DocValue,是一个以列为主的字段,具有在索引的时候构建的文档到值(document-to-value)的映射.这个方法保证减轻了一些字段缓存的内存要求,并

2015-11-16 11:24:14 5107

痛点：挖掘小数据满足用户需求

痛点 —— 挖掘小数据满足用户需求面临破产风险,让乐高转危为安的是一双旧运动鞋。 2003年年初,乐高公司陷入困境,销售额同比下降了 30% 。 2004年,销售额又下降了 10% 。乐高 CEO (首席执行官)约恩· 维格· 克努德斯托普说:“ 我们一直亏本,都火烧眉毛了。公司还将面临债务违约的危险,很可能破产

2020-09-28

对话交互式技术.pdf

融合多源知识的DNN语义解析模型融合多策略的NLU模型基于千亿用户点击数据的DNN语义匹配模型等对话管理

2019-09-16

Attention+is+All+You+Need.pdf

Attention Is All You Need，Sequence to Sequence for neural machine tranlation

2019-09-16

google microsoft 算法面试神器 crack code interview.pdf

2013-08-13

新浪微博数据挖掘方案

摘要: 随着新浪微博用户群体的增长, 新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API 与基于页面解析的新浪微博数据获取方案。程序逻辑控制API 调用方法与频率, 获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API 同时使用,解决了因API 接口开放不完善, 且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试, 通过2 套方案的结合可以实现新浪微博数据高效全面的获取。

2013-08-08