第三章 混合推荐系统和推荐系统评价标准

一、学习目标

1.学习推荐系统的集成学习

2.认识各种对推荐系统的评价指标

二、混合推荐方法

        相当于是将集成学习应用到推荐系统中,这样能提高系统的性能:

1.并行混合设计

        与机器学习中的集成学习类似,使用加权方法或者投票方法对权衡各个推荐系统的重要性。

a)加权式

        在加权式的并行混合设计中,如何设计权重是关键,可以采用以下方法:

b)切换式

        切换的思想,就是从多个推荐系统中选择一个作输出,其他的忽略,于是关键在于要设计一个规则来决定推荐器的使用:

c)混合式

        最简单的方法,由于推荐器的数量就不多,将所有推荐器的结果都展示出来,让用户自行决定:

例如:

2.流水线式混合设计

三、推荐系统评价指标

        根据是否使用数据集分为两种:

        显然,线上评价更反映实际情况,但指标不统一、消耗的金钱和时间更多。离线评价是我们下面主要讲的。

1.评分预测

        将推荐系统任务看成一个分类任务,对比预测的商品的分数和真实数据集标注的分数的差距来评判:

        好处:有数据集就能计算结果;坏处:两个指标的数值不能直观表明一个推荐系统的优劣,只能用于对比两个推荐系统的好坏。

2.top-N任务的PRF1

        由于推荐系统只是推荐最优的n个商品,显然不用计算分数,只需要统计命中(Hit)的商品项就行。于是可以使用正确率P、召回率R和F1值来作评价指标:

 3.关注排序的评价指标

        由于推荐系统推荐商品,如果第一个很对,那么后面的商品意义不大。所以排序对推荐系统的评价结果很关键。

        相关的指标有Rank Score,nDCG和平均正确率。

a)Rank Score

        Rank Score的例子:

b)nDCG

        例子:

c)平均正确率

 四、总结

        混合推荐系统可以理解成集成学习应用到推荐系统中。而推荐系统的评价指标与正常的机器学习指标不同,需要额外记忆。

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
译者序 前言 第1章 系统概貌 1.1 历史 1.2 系统结构 1.3 用户看法 1.3.1 文件系统 1.3.2 处理环境 1.3.3 构件原语 1.4 操作系统服务 1.5 关于硬件的假设 1.5.1 中断与例外 1.5.2 处理机执行级 1.5.3 存储管理 1.6 本章小结 第2章 内核导言 2.1 UNIX操作系统的体系结构 2.2 系统概念介绍 2.2.1 文件子系统概貌 2.2.2 进程 2.3 内核数据结构 2.4 系统管理 2.5 本章小结 2.6 习题 第3章 数据缓冲区高速缓冲 3.1 缓冲头部 3.2 缓冲池的结构 3.3 缓冲区的检索 3.4 读磁盘块与写磁盘块 3.5 高速缓冲的优点与缺点 3.6 本章小结 3.7 习题 第4章 文件的内部表示 4.1 索引节点 4.1.1 定义 4.1.2 对索引节点的存取 4.1.3 释放索引节点 4.2 正规文件的结构 4.3 目录 4.4 路径名到索引节点的转换 4.5 超级块 4.6 为新文件分配索引节点 4.7 磁盘块的分配 4.8 其他文件类型 4.9 本章小结 4.10 习题 第5章 文件系统的系统调用 5.1 系统调用Open 5.2 系统调用read 5.3 系统调用write 5.4 文件和记录的上锁 5.5 文件的输入/输出位置的调整lseek 5.6 系统调用close 5.7 文件的建立 5.8 特殊文件的建立 5.9 改变目录及根 5.10 改变所有者及许可权方式 5.11 系统调用stat和fstat 5.12 管道 5.12.1 系统调用pipe 5.12.2 有名管道的打开 5.12.3 管道的读和写 5.12.4 管道的关闭 5.12.5 例 5.13 系统调用dup 5.14 文件系统的安装和拆卸 5.14.1 在文件路径名中跨越安装点 5.14.2 文件系统的拆卸 5.15 系统调用link 5.16 系统调用unlink 5.16.1 文件系统的一致性 5.16.2 竟争条件 5.17 文件系统的抽象 5.18 文件系统维护 5.19 本章小结 5.20 习题 第6章 进程结构 6.1 进程的状态和状态的转换 6.2 系统存储方案 6.2.1 区 6.2.2 页和页表 6.2.3 内核的安排 6.2.4 u区 6.3 进程的上下文 6.4 进程上下文的保存 6.4.1 中断和例外 6.4.2 系统调用的接口 6.4.3 上下文切换 6.4.4 为废弃返回(abortive return)而保存上下文 6.4.5 在系统和用户地址空间之间拷贝数据 6.5 进程地址空间的管理 6.5.1 区的上锁和解锁 6.5.2 区的分配 6.5.3 区附接到进程 6.5.4 区大小的改变 6.5.5 区的装入 6.5.6 区的释放 6.5.7 区与进程的断接 6.5.8 区的复制 6.6 睡眠 6.6.1 睡眠事件及其地址 6.6.2 算法sleep和wakeup 6.7 本章小结 6.8 习题 第7章 进程控制 7.1 进程的创建 7.2 软中断信号 7.2.1 软中断信号的处理 7.2.2 进程组 7.2.3 从进程发送软中断信号 7.3 进程的终止 7.4 等待进程的终止 7.5 对其他程序的引用 7.6 进程的用户标识号 7.7 改变进程的大小 7.8 Shell程序 7.9 系统自举和进程init 7.10 本章小结 7.11 习题 第8章 进程调度和时间 8.1 进程调度 8.1.1 算法 8.1.2 调度参数 8.1.3 进程调度的例子 8.1.4 进程优先权的控制 8.1.5 公平共享调度 8.1.6 实时处理 8.2 有关时间的系统调用 8.3 时钟 8.3.1 重新启动时钟 8.3.2 系统的内部定时 8.3.3 直方图分析 8.3.4 记帐和统计 8.3.5 计时 8.4 本章小结 8.5 习题 第9章 存储管理策略 9.1 对换 9.1.1 对换空间的分配 9.1.2 进程的换出 9.1.3 进程的换入 9.2 请求调页 9.2.1 请求调页的数据结构 9.2.2 偷页进程 9.2.3 页面错 9.2.4 在简单硬件支持下的请求调页系统 9.3 对换和请求调页的混合系统 9.4 本章小结 9.5 习题 第10章 输入输出子系统 10.1 驱动程序接口 10.1.1 系统配置 10.1.2 系统调用与驱动程序接口 10.1.3 中断处理程序 10.2 磁盘驱动程序 10.3 终端驱动程序 10.3.1 字符表Clist 10.3.2 标准方式下的终端驱动程序 10.3.3 原始方式下的终端驱动程序 10.3.4 终端探询 10.3.5 建立控制终端 10.3.6 间接终端驱动程序 10.3.7 注册到系统 10.4 流 10.4.1 流的详细的示例 10.4.2 对流的分析 10.5 本章小结 10.6 习题 第11章 进程间通信 11.1 进程跟踪 11.2 系统V IPC 11.2.1 消息 11.2.2 共享存储区 11.2.3 信号量 11.2.4 总的评价 11.3 网络通信 11.4 套接字 11.5 本章小结 11.6 习题 第12章 多处理机系统 12.1 多处理机系统的问题 12.2 主从处理机解决方法 12.3 信号量解决方法 12.3.1 信号量定义 12.3.2 信号量实现 12.3.3 几个算法 12.4 Tunis系统 12.5 性能局限性 12.6 习题 第13章 分布式UNIX系统 13.1 卫星处理机系统 13.2 纽卡斯尔连接 13.3 透明型分布式文件系统 13.4 无存根进程的透明分布式模型 13.5 本章小结 13.6 习题 附录A 系统调用 参考文献 索引
酒店数字电视转模拟系统方案 第一章、系统设计原则 方案设计中充分考虑可能完善的整体规划,围绕当前应用需求的特点,本着实用与发展相结合的总体原则:以满足目前的应用为出发点,合理优化设计方案;并兼顾未来的应用需求和技术发展,为系统在技术上提供有效的平滑过渡环境。 1.先进性、灵活性、高性价比 先进性指该系统技术水平在同等规模与同等造价条件下具有国内领先水平,并能适应今后若干年发展需要。 系统标准采用以860MHz固定频道中频调制器为主配置少量870MHz捷变频调制器混合使用,其优点是可以兼配固定频道调制器优良的性能指标和低造价,又能够利用部分捷变调制器合理地传播于无干扰频段,灵活设置特别需求的电视频道和其他开路信号占用频道的问题。 2.科学性、政策性 在保证系统先进性的同时,科学合理的设计前端系统,是整个系统能否高水平运行的重要条件。目前境内卫星电视信号绝大多数已经转为数字电视信号,因此选用数字卫星电视接收机已成为必要和必须。 3.可靠、安全性 本系统设计为无人值守,常年加电运行。因此系统选用先进、成熟、稳定、可靠、安全的产品,是已在类似工程中使用过许多的,证明能适应各种环境的设备。使之适应各种气象条件和供电干扰。建议提供一间20-30平方米的房间做为数字电视前端机房安置机柜,以便管理及维护。 第二章、系统设计结构 1.信号接收部分 其任务是通过数字机顶盒的视音频信号,通过调制器,调制成模拟信号分配的各房间 2.信号处理部分 通称电视前端部分,其任务是将广电数字机顶盒或专用解码器输出音视频信号,再经调制、混合、放大等,最后经过传输系统送到终端分配网络部分,其主要设备包括:调制器、混合器、放大器、机柜等,该部分设备都在前端机房中。 3.输出部分及分配网络部分 其任务是将经过处理的电视信号通过光缆或同轴电缆及分配元件送到各个用户终端。其作用是将前端送来的混合电视信号按一定的电平均匀的传输到各个用户终端,并确保各项指标在规定的范围内,要求分配系统符合广电部《30MHz-1000MHz声音和电视信号的电缆分配系统》GB6510-86标准。这一部分应根据建筑物实际分布情况进行设计,本方案暂不作详细设计。 第三章、系统设备选型及简介 前端系统是是系统的中枢。前端系统输出质量的好坏,是整个系统的关键。前端的选型及系统设计是,模拟电视系统的基础,超前的设计和系统的高度集成可使业主得到最佳的投资效益。整个电视系统的性能、指标除了取决于设计、调试者的技术水平之外,前端设备的配置是一个非常关键的环节,具体来说就是采用什么样的调制主机、混合器等,为降低造价前面我们应统筹考虑,精心规划,以免造价过高,因此我们定位为专业级中等偏上档次的设备,关键是性能稳定可靠。 1.调制器是将视频信号、音频信号经过中频信号处理转变为射频信号的设备,对整个系统信号质量的好坏关系极大。现在市场上的调制器质量档次差别很大,同档次又有两种:一种是固定频道邻频调制器,另一种是捷变型邻频调器,固定频道调制器稳定性较好一些,但是频道不可更改,捷变型邻频调器比则同档次固定频道调制器价格稍高,可在48MHz--870MHz内频道连续可调,但在一个系统中不能大量使用,否则信号处理部分难以调试到最佳状态,本系统中灵活选用深圳市鼎盛威电子有限公司生产的四路固定频道隔频调制器SK-4860FM。 2.混合器选用鼎盛威电子生产的SK-16无源十六路频道混合器,工作频率范围为5-1000MHz,具有高各稳定、低驻波、抵插损、高隔离度,还具有良好的扩容性。 第四章、系统节目设计部分 1.数字机顶盒 40套(广电提供) 第五章、系统工程施工 1.工程施工原则 施工人员熟悉施工图纸及有关资料,包括工程特点、施工方案、工艺要求、施工质量标准。 设备、仪器、机具、辅材、工具和机械等满足连续施工和阶段施工的要求。 系统的工程施工前应对现场情况进行检查,符合条件方可施工。 2.设备安装 在设备安装前按要求进行检查,将设备逐个进行检测和粗调,发现无任何故障后,方可安装。 第六章.工程验收 工程验收由工程设计、施工和建设单位的代表组成验收小组,按竣工图进行。验收时应做好记录,签署验收证书;验收合格后,方可交付使用。当验收不合格时,应由设计、施工单位返修直到合格,再行验收。作为施工单位在正式工程验收前5天,自己应组织预验收。 1.验收内容 系统工程的施工质量; 系统质量的主观评价; 系统质量的客观评价; 2.竣工验收文件 在系统的工程竣工验收前,施工单位应编制好竣工验收文件,验收文件应保证质量,做到内容齐全、标记详细、编写清楚、数据准确、互相对应;一式三份交建设单位,其中一份由建设单位签收盖章后,退还施工单位存档。 设备简介: SK-4860FM 经济型四合一固定隔频频道调制 产品特点 1、四路视音频通道输入,一路射频四个频道的隔频输出。 2、采用高中频调制、一次变频方式和声表面滤波器处理, 带外干扰小。 3、伴音、图像高中频和射频本振均采用 MCU 锁相技术, 频率稳定度和准确度都高。 4、整机各功能电路均采用片状工艺,整机可靠性高。 5、操作便利,音量大小、视频调制度均可在前面板调节。 6、电源部分采用高可靠性高动态范围的开关电源。 技术参数 射频 输出频率范围 47~870任四个隔频频道可选 频率准确度 ± 5kHz 输出电平 40dBmV 带外抑制 - 60dBc max 输出阻抗 75Ω 输出反射 12dB min 任意频道 视频 伴音 - 图像载波 18 ± 2dB 输入电平 0.6 ~ 1.5Vp-p 视频输入阻抗 75Ω 视频输入反射 30dB min 信噪比(加权) 60dB 时延 45 nsec 带内平坦度 ± 1dB 微分增益 ± 5 % (调制度为 87.5 % ) 微分相位 ± 5° (调制度为 87.5 % ) 音频 输入电平 -10 ~ 10 dBm 输入阻抗 10KΩ min 带内平坦度 ± 1dB 失真度 1 % 信噪比 -60dB 图像、伴音间距 根据制式定 电 源 输入交流电压 220V 功耗 15W max 尺寸 440mm 长 ′ 17-20°C ---- +70°C 重量 最大 8kg 存储温度 -20°C ---- +70°C 使用温度 0°C ---- +45°C 混合器 SK-16 24 路混合器 产品特点 1、采用定向耦合器电路,性能指标高。 2、 整机具有高可靠性和高温度稳定性等特点。 3、24路输入,1 路混合输出。 4、 采用普通型或豪华型标准 19 ′机箱。 技术参数 频率范围 45-860MHz 插入损耗 20 ± 2dB 隔离损耗 ≥30dB 输入输出阻抗 75 Ω 输入输出反射损耗 ≥12dB 四. 放大器(ET-30) SK-ET30 放大器 SK-ET30型单向干线(分配)放大器为860MHz平台, 30dB工作增、输出为单路、分支或分配三种方式可选。 采用高性能线性变压器,电压适应范围宽。本产品不仅 适用于HFC网络;也适用于传统的同轴电缆网络。 产品特点 1. 45~860MHz双向平台设计。 2. 正向通路采用单级推挽模块放大。 3. 单路、两路分配或分支三种输出方式可选。 4. -20dB定向耦合测试方式。 5. 60V(35~90V)或220V(100V~265V)交流供电。 6. 最大8安培过流。 频率带宽 45~860Mz平台 内平坦度 ±0.75dB 反射损耗 ≥16dB 称增益 30Db(单路输出) 最小满增益 32dB(单路输出) 均蘅量 3~21dB(1.5dB步进) 躁声系数 ≤10 C/CTB ≥62dB 推挽模块59路PAL制 C/CSO ≥60dB 42dBmV输出(典型值) 测试口电平 -20dB(相对于主输出) 信号交流声比 ≥66dB 增益调整范围 0~10dB(连续可调) 射频输出连接 F型接头或5/8,24牙贯通头 供电 ~220V(~100V-~265V) 60V(~35V~75V) 40套节目需要设备概要说明及所用器材一览表; 高频头。 1 四路固定调制器. 40 数字机顶盒 40 16路混合器. 1 放大器. 1 19”机柜. 2 六路分配器. 1 八路分配器 5 六路分配器 1 电缆线◎5线 一批 施工质量验收记录; 第八章、质量保障、售后服务及培训 1.产品质量及功能保障 该工程项目内所建议选用的产品均获认证,产品质量符合国家和国际标准,功能具先进性、适用性、可靠性和稳定性。 2.售后服务 对整个系统实行一年内免费维护和保修; 三年内属人为因素问题造成的器材损坏,只收取元器件成本费; 系统出现故障,我公司保证在48小时内进行处理; 3. 技术培训 工程施工完毕后,我公司安排一名工程师对工程甲方技术及操作人员(人员数量及名单由甲方确定)针对系统的操作使用、日常维护及简单故障排除,免费进行培训。保证参加培训人员均能对整个系统有全面的了解,并熟练掌握设备的操作和日常维护。 培训内容: 电视机房系统的组成和原理 系统各种器材的安装和使用方法及系统维护 第九章、系统选用设备及价格汇总 一:协商价350---450每个频道(包含所有材料费及利润) 序号 名称及型号 数 量 单 价 金 额 产地及公司名称 1 四路固定调制器(SK-4860FM) 10 深圳鼎盛威 2 16路混合器(SK-16) 1 深圳鼎盛威 4 19英寸标准机柜 1 可自备 5 8分配器 5 奥视 6 6分配器 1 奥视 8 放大器(ET-30) 1 深圳鼎盛威 9 75-7同轴电缆 线材若干米 7 2.5/m 10 75-5同轴电缆 线材若干米 2 1.5/m 11 F头 200 0.5 深圳鼎盛威 12 辅助材料费及材料运费小计: 13 差旅设计安装调试综合费 14 费用合计: 15 税金: 16 工程预算总价:
第1章 系统概貌 1.1 历史 1.2 系统结构 1.3 用户看法 1.3.1 文件系统 1.3.2 处理环境 1.3.3 构件原语 1.4 操作系统服务 1.5 关于硬件的假设 1.5.1 中断与例外 1.5.2 处理机执行级 1.5.3 存储管理 1.6 本章小结 第2章 内核导言 2.1 UNIX操作系统的体系结构 2.2 系统概念介绍 2.2.1 文件子系统概貌 .2.2.2 进程 2.3 内核数据结构 2.4 系统管理 2.5 本章小结 2.6 习题 第3章 数据缓冲区高速缓冲 3.1 缓冲头部 3.2 缓冲池的结构 3.3 缓冲区的检索 3.4 读磁盘块与写磁盘块 3.5 高速缓冲的优点与缺点 3.6 本章小结 3.7 习题 第4章 文件的内部表示 4.1 索引节点 4.1.1 定义 4.1.2 对索引节点的存取 4.1.3 释放索引节点 4.2 正规文件的结构 4.3 目录 4.4 路径名到索引节点的转换 4.5 超级块 4.6 为新文件分配索引节点 4.7 磁盘块的分配 4.8 其他文件类型 4.9 本章小结 4.10 习题 第5章 文件系统的系统调用 5.1 系统调用open 5.2 系统调用read 5.3 系统调用write 5.4 文件和记录的上锁 5.5 文件的输入/输出位置的调整—lseek 5.6 系统调用close 5.7 文件的建立 5.8 特殊文件的建立 5.9 改变目录及根 5.10 改变所有者及许可权方式 5.11 系统调用stat和fstat 5.12 管道 5.12.1 系统调用pipe 5.12.2 有名管道的打开 5.12.3 管道的读和写 5.12.4 管道的关闭 5.12.5 例 5.13 系统调用dup 5.14 文件系统的安装和拆卸 5.14.1 在文件路径名中跨越安装点 5.14.2 文件系统的拆卸 5.15 系统调用link 5.16 系统调用unlink 5.16.1 文件系统的一致性 5.16.2 竞争条件 5.17 文件系统的抽象 5.18 文件系统维护 5.19 本章小结 5.20 习题 第6章 进程结构 6.1 进程的状态和状态的转换 6.2 系统存储方案 6.2.1 区 6.2.2 页和页表 6.2.3 内核的安排 6.2.4 u区 6.3 进程的上下文 6.4 进程上下文的保存 6.4.1 中断和例外 6.4.2 系统调用的接口 6.4.3 上下文切换 6.4.4 为废弃返回(abortive return)而保存上下文 6.4.5 在系统和用户地址空间之间拷贝数据 6.5 进程地址空间的管理 6.5.1 区的上锁和解锁 6.5.2 区的分配 6.5.3 区附接到进程 6.5.4 区大小的改变 6.5.5 区的装入 6.5.6 区的释放 6.5.7 区与进程的断接 6.5.8 区的复制 6.6 睡眠 6.6.1 睡眠事件及地址 6.6.2 算法sleep和wakeup 6.7 本章小结 6.8 习题 第7章 进程控制 7.1 进程的创建 7.2 软中断信号 7.2.1 软中断信号的处理 7.2.2 进程组 7.2.3 从进程发送软中断信号 7.3 进程的终止 7.4 等待进程的终止 7.5 对其他程序的引用 7.6 进程的用户标识号 7.7 改变进程的大小 7.8 shell程序 7.9 系统自举和进程init 7.10 本章小结 7.11 习题 第8章 进程调度和时间 8.1 进程调度 8.1.1 算法 8.1.2 调度参数 8.1.3 进程调度的例子 8.1.4 进程优先权的控制 8.1.5 公平共享调度 8.1.6 实时处理 8.2 有关时间的系统调用 8.3 时钟 8.3.1 重新启动时钟 8.3.2 系统的内部定时 8.3.3 直方图分析 8.3.4 记帐和统计 8.3.5 计时 8.4 本章小结 第9章 存储管理策略 9.1 对换 9.1.1 对换空间的分配 9.1.2 进程的换出 9.1.3 进程的换入 9.2 请求调页 9.2.1 请求调页的数据结构 9.2.2 偷页进程 9.2.3 页面错 9.2.4 在简单硬件支持下的请示调页系统 9.3 对换和请示调页的混合系统 9.4 本章小结 9.5 习题 第10章 输入/输出子系统 10.1 驱动程序接口 10.1.1 系统配置 10.1.2 系统调用与驱动程序接口 10.1.3 中断处理程序
目录 前言 第一章引论.................................................................................................................1 第一节 搜索引擎的概念................................................................................................2 第二节 搜索引擎的发展历史........................................................................................3 第三节 一些著名的搜索引擎........................................................................................7 上篇 WEB搜索引擎基本原理和技术....................................................................16 第二章 WEB搜索引擎工作原理和体系结构..........................................................17 第一节 基本要求..........................................................................................................17 第二节 网页搜集..........................................................................................................18 第三节 预处理..............................................................................................................20 第四节 查询服务..........................................................................................................22 第五节 体系结构..........................................................................................................25 第三章 WEB信息的搜集..........................................................................................29 第一节 引言..................................................................................................................29 一、 超文本传输协议..............................................................................................29 二、 一个小型搜索引擎系统..................................................................................31 第二节 网页搜集..........................................................................................................33 一、 定义URL类和Page类......................................................................................34 二、 与服务器建立连接..........................................................................................39 三、 发送请求和接收数据......................................................................................41 四、 网页信息存储的天网格式..............................................................................42 第三节 多道搜集程序并行工作..................................................................................45 一、 多线程并发工作..............................................................................................46 二、 控制对一个站点并发搜集线程的数目..........................................................47 第四节 如何避免网页的重复搜集..............................................................................47 一、 记录未访问、已访问URL和网页内容摘要信息..........................................47 二、 域名与IP的对应问题......................................................................................48 第五节 如何首先搜集重要的网页..............................................................................49 第六节 搜集信息的类型..............................................................................................52 第七节本章小结..........................................................................................................54 iii 第四章对搜集信息的预处理...................................................................................55 第一节 信息预处理的系统结构..................................................................................55 第二节 索引网页库......................................................................................................56 第三节 中文自动分词..................................................................................................58 第四节分析网页和建立倒排文件..............................................................................64 第五节本章小结..........................................................................................................66 第五章信息查询服务...............................................................................................67 第一节 查询服务的系统结构......................................................................................67 第二节 检索的定义......................................................................................................68 第三节 查询服务的实现..............................................................................................69 一、 结果集合的形成..............................................................................................69 二、 查询结果显示.................................................................................................70 第四节 本章小结..........................................................................................................72 中篇 对质量和性能的追求.....................................................................................73 第六章可扩展搜集子系统.......................................................................................75 第一节 天网系统概述和集中式搜集系统结构...........................................................75 一、 天网系统结构.................................................................................................75 二、 集中式搜集系统..............................................................................................76 第二节 利用并行处理技术高效搜集网页的一种方案...............................................82 一、 节点间URL的划分策略..................................................................................83 二、 关于性能的讨论..............................................................................................86 三、 性能测试和评价..............................................................................................88 四、 系统的动态可配置性设计..............................................................................91 第三节 本章小结..........................................................................................................93 第七章网页净化与消重...........................................................................................95 第一节 网页净化与元数据提取..................................................................................95 一、 引言.................................................................................................................95 二、 DocView模型..................................................................................................98 三、 网页的表示.....................................................................................................99 四、 提取DocView模型要素的方法.....................................................................103 五、 模型应用及实验研究....................................................................................108 第二节 网页消重算法................................................................................................112 一、 消重算法.......................................................................................................112 iv 二、 算法评测.......................................................................................................115 第八章高性能检索子系统.....................................................................................120 第一节 检索系统基本技术........................................................................................121 一、 系统设计与结构............................................................................................121 二、 索引创建.......................................................................................................124 三、 检索过程.......................................................................................................126 第二节 倒排文件性能模型........................................................................................127 一、 引言...............................................................................................................128 二、 倒排文件的概念............................................................................................129 三、 倒排文件的一种性能模型............................................................................131 四、 结合计算机性能指标的考虑........................................................................136 第三节 混合索引技术................................................................................................138 一、 引言...............................................................................................................138 二、 混合索引原理...............................................................................................139 三、 混合索引实现...............................................................................................141 第四节 倒排文件缓存机制........................................................................................144 一、 引言...............................................................................................................144 二、 倒排文件缓存...............................................................................................145 三、 负载特性.......................................................................................................147 四、 缓存策略的选择............................................................................................149 第五节 本章小结........................................................................................................149 第九章用户行为的特征及缓存的应用.................................................................151 第一节 用户查询与点击日志....................................................................................152 第二节 用户行为特征的统计分析............................................................................154 一、 用户查询词的分布情况................................................................................154 二、 雷同查询词的衰减统计................................................................................155 三、 相邻N项查询词的偏差分析.........................................................................156 四、 用户在输出结果中的翻页情况统计............................................................158 五、 用户点击URL的分布情况............................................................................159 六、 考虑与不考虑查询项时点击URL分布的对比分析....................................160 七、 查询过程的自相似性....................................................................................161 第三节 查询缓存的使用............................................................................................164 一、 基于用户行为的启示....................................................................................164 二、 缓存替换策略研究........................................................................................165 v 第四节 用户行为与WEB信息的分布特征.................................................................167 一、 基本术语.......................................................................................................167 二、 海量Web信息的特征分析.............................................................................168 第十章相关排序与系统质量评估.........................................................................173 第一节 传统IR的相关排序技术................................................................................173 第二节 链接分析与相关排序....................................................................................176 一、 链接分析.......................................................................................................176 二、 Web查询模式下的新信息............................................................................178 第三节 相关排序的一种实现方案............................................................................182 一、 形成网页中词项的基本权重........................................................................183 二、 利用链接的结构............................................................................................185 三、 收集用户反馈信息........................................................................................187 四、 计算最终的权重............................................................................................189 第四节 搜索引擎系统质量评估................................................................................191 一、 引言...............................................................................................................191 二、 查询类别分析与查询集的构建....................................................................192 三、 评估实验的建立与分析................................................................................193 下篇 面向主题和个性化的WEB信息服务..........................................................196 第十一章中文网页自动分类技术.........................................................................197 第一节 引言................................................................................................................197 第二节 文档自动分类算法的类型............................................................................197 第三节 实现中文网页自动分类的一般过程.............................................................199 第四节 影响分类器性能的关键因素分析.................................................................201 一、 实验设置.......................................................................................................201 二、 训练样本.......................................................................................................202 三、 特征选取.......................................................................................................207 四、 分类算法.......................................................................................................210 五、 截尾算法.......................................................................................................216 六、 一个中文网页分类器的设计方案................................................................218 第五节 天网目录导航服务........................................................................................219 一、 问题的提出...................................................................................................219 二、 天网目录导航服务的体系结构....................................................................220 三、 天网目录的运行实例....................................................................................221 第六节 本章小结........................................................................................................221 vi 第十二章搜索引擎个性化查询服务.....................................................................223 第一节 基于WEB挖掘的个性化技术.........................................................................223 一、 Web挖掘技术................................................................................................224 二、 典型个性化Web服务系统的比较.................................................................225 三、 基于Web挖掘的个性化技术的发展.............................................................226 第二节 天网知名度系统............................................................................................227 一、 系统结构.......................................................................................................227 二、 网页与命名实体的相关度评价....................................................................231 第十三章面向主题的信息搜集与应用.................................................................235 第一节 主题信息的搜集............................................................................................235 一、 主题信息分布的局部性................................................................................235 二、 一种主题信息搜集系统................................................................................236 第二节 主题信息的一种搜集与处理模型及其应用.................................................238 一、 模型设计.......................................................................................................238 二、 应用实验:以“十六大”为主题................................................................242 三、 总结与讨论...................................................................................................244 参考文献...................................................................................................................245 附录. 术语................................................................................................................256 后记...........................................................................................................................264 vii
目录 前言 第一章引论.................................................................................................................1 第一节 搜索引擎的概念................................................................................................2 第二节 搜索引擎的发展历史........................................................................................3 第三节 一些著名的搜索引擎........................................................................................7 上篇 WEB搜索引擎基本原理和技术....................................................................16 第二章 WEB搜索引擎工作原理和体系结构..........................................................17 第一节 基本要求..........................................................................................................17 第二节 网页搜集..........................................................................................................18 第三节 预处理..............................................................................................................20 第四节 查询服务..........................................................................................................22 第五节 体系结构..........................................................................................................25 第三章 WEB信息的搜集..........................................................................................29 第一节 引言..................................................................................................................29 一、 超文本传输协议..............................................................................................29 二、 一个小型搜索引擎系统..................................................................................31 第二节 网页搜集..........................................................................................................33 一、 定义URL类和Page类......................................................................................34 二、 与服务器建立连接..........................................................................................39 三、 发送请求和接收数据......................................................................................41 四、 网页信息存储的天网格式..............................................................................42 第三节 多道搜集程序并行工作..................................................................................45 一、 多线程并发工作..............................................................................................46 二、 控制对一个站点并发搜集线程的数目..........................................................47 第四节 如何避免网页的重复搜集..............................................................................47 一、 记录未访问、已访问URL和网页内容摘要信息..........................................47 二、 域名与IP的对应问题......................................................................................48 第五节 如何首先搜集重要的网页..............................................................................49 第六节 搜集信息的类型..............................................................................................52 第七节本章小结..........................................................................................................54 iii 第四章对搜集信息的预处理...................................................................................55 第一节 信息预处理的系统结构..................................................................................55 第二节 索引网页库......................................................................................................56 第三节 中文自动分词..................................................................................................58 第四节分析网页和建立倒排文件..............................................................................64 第五节本章小结..........................................................................................................66 第五章信息查询服务...............................................................................................67 第一节 查询服务的系统结构......................................................................................67 第二节 检索的定义......................................................................................................68 第三节 查询服务的实现..............................................................................................69 一、 结果集合的形成..............................................................................................69 二、 查询结果显示.................................................................................................70 第四节 本章小结..........................................................................................................72 中篇 对质量和性能的追求.....................................................................................73 第六章可扩展搜集子系统.......................................................................................75 第一节 天网系统概述和集中式搜集系统结构...........................................................75 一、 天网系统结构.................................................................................................75 二、 集中式搜集系统..............................................................................................76 第二节 利用并行处理技术高效搜集网页的一种方案...............................................82 一、 节点间URL的划分策略..................................................................................83 二、 关于性能的讨论..............................................................................................86 三、 性能测试和评价..............................................................................................88 四、 系统的动态可配置性设计..............................................................................91 第三节 本章小结..........................................................................................................93 第七章网页净化与消重...........................................................................................95 第一节 网页净化与元数据提取..................................................................................95 一、 引言.................................................................................................................95 二、 DocView模型..................................................................................................98 三、 网页的表示.....................................................................................................99 四、 提取DocView模型要素的方法.....................................................................103 五、 模型应用及实验研究....................................................................................108 第二节 网页消重算法................................................................................................112 一、 消重算法.......................................................................................................112 iv 二、 算法评测.......................................................................................................115 第八章高性能检索子系统.....................................................................................120 第一节 检索系统基本技术........................................................................................121 一、 系统设计与结构............................................................................................121 二、 索引创建.......................................................................................................124 三、 检索过程.......................................................................................................126 第二节 倒排文件性能模型........................................................................................127 一、 引言...............................................................................................................128 二、 倒排文件的概念............................................................................................129 三、 倒排文件的一种性能模型............................................................................131 四、 结合计算机性能指标的考虑........................................................................136 第三节 混合索引技术................................................................................................138 一、 引言...............................................................................................................138 二、 混合索引原理...............................................................................................139 三、 混合索引实现...............................................................................................141 第四节 倒排文件缓存机制........................................................................................144 一、 引言...............................................................................................................144 二、 倒排文件缓存...............................................................................................145 三、 负载特性.......................................................................................................147 四、 缓存策略的选择............................................................................................149 第五节 本章小结........................................................................................................149 第九章用户行为的特征及缓存的应用.................................................................151 第一节 用户查询与点击日志....................................................................................152 第二节 用户行为特征的统计分析............................................................................154 一、 用户查询词的分布情况................................................................................154 二、 雷同查询词的衰减统计................................................................................155 三、 相邻N项查询词的偏差分析.........................................................................156 四、 用户在输出结果中的翻页情况统计............................................................158 五、 用户点击URL的分布情况............................................................................159 六、 考虑与不考虑查询项时点击URL分布的对比分析....................................160 七、 查询过程的自相似性....................................................................................161 第三节 查询缓存的使用............................................................................................164 一、 基于用户行为的启示....................................................................................164 二、 缓存替换策略研究........................................................................................165 v 第四节 用户行为与WEB信息的分布特征.................................................................167 一、 基本术语.......................................................................................................167 二、 海量Web信息的特征分析.............................................................................168 第十章相关排序与系统质量评估.........................................................................173 第一节 传统IR的相关排序技术................................................................................173 第二节 链接分析与相关排序....................................................................................176 一、 链接分析.......................................................................................................176 二、 Web查询模式下的新信息............................................................................178 第三节 相关排序的一种实现方案............................................................................182 一、 形成网页中词项的基本权重........................................................................183 二、 利用链接的结构............................................................................................185 三、 收集用户反馈信息........................................................................................187 四、 计算最终的权重............................................................................................189 第四节 搜索引擎系统质量评估................................................................................191 一、 引言...............................................................................................................191 二、 查询类别分析与查询集的构建....................................................................192 三、 评估实验的建立与分析................................................................................193 下篇 面向主题和个性化的WEB信息服务..........................................................196 第十一章中文网页自动分类技术.........................................................................197 第一节 引言................................................................................................................197 第二节 文档自动分类算法的类型............................................................................197 第三节 实现中文网页自动分类的一般过程.............................................................199 第四节 影响分类器性能的关键因素分析.................................................................201 一、 实验设置.......................................................................................................201 二、 训练样本.......................................................................................................202 三、 特征选取.......................................................................................................207 四、 分类算法.......................................................................................................210 五、 截尾算法.......................................................................................................216 六、 一个中文网页分类器的设计方案................................................................218 第五节 天网目录导航服务........................................................................................219 一、 问题的提出...................................................................................................219 二、 天网目录导航服务的体系结构....................................................................220 三、 天网目录的运行实例....................................................................................221 第六节 本章小结........................................................................................................221 vi 第十二章搜索引擎个性化查询服务.....................................................................223 第一节 基于WEB挖掘的个性化技术.........................................................................223 一、 Web挖掘技术................................................................................................224 二、 典型个性化Web服务系统的比较.................................................................225 三、 基于Web挖掘的个性化技术的发展.............................................................226 第二节 天网知名度系统............................................................................................227 一、 系统结构.......................................................................................................227 二、 网页与命名实体的相关度评价....................................................................231 第十三章面向主题的信息搜集与应用.................................................................235 第一节 主题信息的搜集............................................................................................235 一、 主题信息分布的局部性................................................................................235 二、 一种主题信息搜集系统................................................................................236 第二节 主题信息的一种搜集与处理模型及其应用.................................................238 一、 模型设计.......................................................................................................238 二、 应用实验:以“十六大”为主题................................................................242 三、 总结与讨论...................................................................................................24

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值