智能应用中八个常见的误区

误区1:数据是可靠的 很多因素会导致你获取的数据不可靠。在考虑具体的智能算法解决方案之前,首先就要判断数据是否可信。如果数据有问题,就算是最聪明的人,通常也会得出错误的结论。 可能导致数据出错的原因有很多,在此不可能一一列举,下面列出了部分有代表性的可能导致数据出错的因素: ·   在开发...

2014-04-17 21:49:44

阅读数 7

评论数 0

通用爬虫框架及heritrix爬虫介绍

第1部分 通用爬虫 1.1 通用爬虫框架介绍   图1-1描述了通用的爬虫框架,其基本上包括了一个爬虫系统所需要的所有模块。任何一个爬虫系统的设计图,会发现都有一个环路,这个环代表着爬虫大致的工作流程:根据url将对应的网页下载下来,然后提取出网页中包含的url,再根据这些新的U...

2014-04-16 19:09:25

阅读数 113

评论数 0

垂直搜索-爬虫部分

垂直搜索与通用搜索不同之处在于,通用搜索不需要理会网站哪些资源是需要的,哪些是不需要的,一并抓取并将其文本部分做索引。而垂直搜索里,我们的目标网站往往在某一领域具有其专业性,其整体网站的结构相当规范,并且垂直搜索往往只需要其中一部分具有垂直性的资源,所以垂直爬虫相比通用爬虫更加精确。 垂直爬...

2014-04-09 23:11:06

阅读数 29

评论数 0

MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明

  第1部分 messagepack说明 1.1messagepack的消息编码说明 为什么messagepack比json序列化使用的字节流更少, 可通过图1-1、图1-2有个直观的感觉。    图1- 1 messagepack与json的格式对比1   图1- 2 ...

2014-04-09 12:50:24

阅读数 127

评论数 0

Lucene的数字范围搜索 (Numeric Range Query)原理

0. 全文索引的核心就是倒排索引.     1. 若数字不支持范围查询, 直接变成字符串查找即可     2. 如果要支持范围查询, 直接的字符串存储支持么?      目前lucene要求term按照字典序(lexicographic sortable)排列,然后它的范围查询...

2014-04-05 16:08:54

阅读数 43

评论数 0

UDT协议-基于UDP的可靠数据传输协议的实现分析(7)-流量和拥塞控制

流量控制 对于一个带宽1Gbps, RTT为100ms的网络来说 BDP=1,000,000,000*0.1/8=12,500,000字节=12207K=12M 传统TCP接收窗口大小=65535byte=64K, 显然满足不了 udt使用包大小1500byte, 默认接口窗口大小为8192, ...

2014-04-02 20:53:46

阅读数 35

评论数 0

UDT协议-基于UDP的可靠数据传输协议的实现分析(6)-链接的建立和关闭

1. 模式有client/server mode(客户端,服务器端模式) and the rendezvous mode(会合模式,可同时向对方发送请求)2. client发送的握手信息,信息有:1) UDT version: udt版本,主要用作兼容性处理2) Socket Type: ST...

2014-04-01 22:47:29

阅读数 21

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭