自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器不学习

深度聚合机器学习、人工智能算法及技术实战

  • 博客(4)
  • 资源 (11)
  • 收藏
  • 关注

原创 Lucene系列-index弹性扩展

Lucene系列-index扩展Shard与ReplicaShard:index数据分片.当索引数据到达百亿级别的,单份数据索引读取和搜索都是非常耗时间的,即使在用earlytermination的情况下,latency也在100ms左右. 数据分片成shard,可以快速的提高搜索效率.Replica:shard的备份,在搜索QPS较高的时候,Replica可以提供搜索的吞吐量. 一般包含一个p

2015-11-19 11:46:46 798

原创 lucene系列-facet搜索

facet搜索,方面搜索,电商中使用的非常多.例如 统计field中值的分组分布情况, 只是每个域值中的命中数量.facet搜索主要用于:1.Facet Counting facet域值统计 2.Facet Associations facet域值分类匹配度.描述一个doc属于某一个category的程度. 3.Multiple Facet Requests 了解多个fecet的结果分布

2015-11-16 17:06:42 2013

原创 Lucene系列-Fieldcache

FiledCache介绍 Lucene作为列缓存, 可以获取设置了Filed.Store.Yes上的正排数据信息.通常IndexSearcher.doc(docId)获得Document的所有域值,访问速度比较慢.但是通过FieldCache读取doc的分片信息,速度可以提升很多. 注意:FieldCache并非在存储域中读取,而是在索引域中读取,从而不必构造Document对象,要求此索引域是

2015-11-16 13:12:31 1552

原创 Lucene系列-DocValues

DocValues简介 Lucene索引的存储一般都是以倒排拉链的方式(term-doc), 但是在搜索相关功能处理的时候,如排序,高亮,摘要信息的获取,需要通过文档docid找到相应的正排信息,在Lucene4.0中,引入了一个新字段类型DocValue,是一个以列为主的字段,具有在索引的时候构建的文档到值(document-to-value)的映射.这个方法保证减轻了一些字段缓存的内存要求,并

2015-11-16 11:24:14 5107

痛点:挖掘小数据满足用户需求

痛点 —— 挖掘小数据满足用户需求面临破产风险,让乐高转危为安的是一双旧运动鞋。 2003年年初,乐高公司陷入困境,销售额同比下降了 30% 。 2004年,销售额又下降了 10% 。 乐高 CEO (首席执行官)约恩· 维格· 克努德斯托普说:“ 我们一直亏本,都火烧眉毛了。公司 还将面临债务违约的危险,很可能破产

2020-09-28

对话交互式技术.pdf

融合多源知识的DNN语义解析模型 融合多策略的NLU模型 基于千亿用户点击数据的DNN语义匹配模型等 对话管理

2019-09-16

Attention+is+All+You+Need.pdf

Attention Is All You Need,Sequence to Sequence for neural machine tranlation

2019-09-16

google microsoft 算法面试神器 crack code interview.pdf

google microsoft 算法面试神器 crack code interview.pdf

2013-08-13

新浪微博数据挖掘方案

摘 要: 随着新浪微博用户群体的增长, 新浪微博的数据获 取是微博研究首先需要解决的问题。该文提出了基于新浪 微博API 与基于页面解析的新浪微博数据获取方案。程序 逻辑控制API 调用方法与频率, 获取JSON对象并解析实现 高效数据获取。同时将传统的网络爬虫结合网页解析技术 结合API 同时使用,解决了因API 接口开放不完善, 且因在 返回结果数量上限与调用频率方面的限制,导致不能有效实 现新浪微博数据的全面获取的问题。经过实验测试, 通过2 套方案的结合可以实现新浪微博数据高效全面的获取。

2013-08-08

LevelDB SSTable格式详解

Google开源的LevelDB 对应了Bigtable中的tablet server

2013-08-08

分布式爬虫

全网爬虫和垂直爬虫 • 分布式框架 • 海量数据存储 • SSD作缓存和虚拟内存

2013-08-08

海量数据的高效存储 --- 淘宝云梯极限存储的原理和实践

海量数据的高效存储 --- 淘宝云梯极限存储的原理和实践

2013-08-08

基于SVM的中文微博情感分析的研究.

基于SVM的中文微博情感分析的研究,svm对分类问题处理还是很不错的

2013-08-08

machine-learning ng完整ppt-带注释

机器学习的入门经典,Andrew Ng的讲解ppt,带注释的,是机器学习的经典材料

2013-08-07

深入理解nginx:Nginx模块开发与架构解析(完整版).pdf

深入理解nginx:Nginx模块开发与架构解析(完整版).pdf

2013-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除