解决Android应用启动黑白屏Demo
解决Android应用启动黑白屏Demo
搜索引擎优化魔法书
目录
关于这本书.............................................................................................................................................1
第一章 搜索引擎基础............................................................................................................................2
第一节 什么是搜索引擎....................................................................................................................2
一、搜索引擎的作用......................................................................................................................2
二、搜索引擎的定义......................................................................................................................4
第二节 搜索引擎的基本工作原理.....................................................................................................4
一、抓取.........................................................................................................................................5
二、索引.........................................................................................................................................5
三、排序.........................................................................................................................................5
第三节 搜索引擎的分类....................................................................................................................6
一、网页级搜索..............................................................................................................................6
二、垂直搜索.................................................................................................................................6
三、元搜索引擎..............................................................................................................................6
四、目录搜索.................................................................................................................................6
五、集成搜索.................................................................................................................................7
第四节 搜索引擎的未来....................................................................................................................7
一、快速化.....................................................................................................................................7
二、多样化.....................................................................................................................................7
三、智能化.....................................................................................................................................7
四、社会化.....................................................................................................................................7
五、个性化.....................................................................................................................................8
第五节 主要搜索引擎介绍................................................................................................................8
一、Google.....................................................................................................................................8
二、Yahoo....................................................................................................................................12
三、百度.......................................................................................................................................13
四、搜狗.......................................................................................................................................15
五、中文搜索引擎列表................................................................................................................16
第二章 搜索引擎营销基础..................................................................................................................17
第一节 什么是搜索引擎营销..........................................................................................................17
一、搜索引擎营销的定义............................................................................................................17
二、搜索引擎营销的价值............................................................................................................17
三、搜索引擎营销原理................................................................................................................18
第二节 搜索引擎营销的特点..........................................................................................................19
一、广泛使用...............................................................................................................................19
二、用户主动查询,针对性强....................................................................................................19
三、获取新客户............................................................................................................................19
四、竞争性强...............................................................................................................................20 第 1 页
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net
五、动态更新,随时调整............................................................................................................20
六、门槛低,投资回报率高........................................................................................................20
第三节 搜索引擎营销的目标..........................................................................................................21
一、被收录...................................................................................................................................21
二、排名靠前...............................................................................................................................21
三、被点击...................................................................................................................................21
四、客户转化...............................................................................................................................21
五、提高品牌知名度....................................................................................................................21
第四节 搜索引擎营销的形式..........................................................................................................22
一、搜索引擎登录........................................................................................................................22
二、固定排名和广告....................................................................................................................23
三、按效果付费排名....................................................................................................................24
四、自然排名...............................................................................................................................24
第三章 搜索引擎优化基础..................................................................................................................25
第一节 为什么要搜索引擎优化.......................................................................................................25
一、搜索引擎优化的定义............................................................................................................25
二、搜索引擎优化的价值............................................................................................................25
三、SEO和SEM的关系...............................................................................................................26
四、SEO和付费排名的关系........................................................................................................26
第二节 搜索引擎对SEO的态度.......................................................................................................27
一、Google...................................................................................................................................27
二、Yahoo....................................................................................................................................29
三、百度.......................................................................................................................................30
四、搜狗.......................................................................................................................................34
第三节 白帽SEO和黑帽SEO...........................................................................................................37
第四节 搜索引擎优化的发展..........................................................................................................39
一、SEO的发展历史....................................................................................................................39
二、SEO在中国............................................................................................................................40
三、SEO的发展方向....................................................................................................................42
第五节 关于搜索引擎优化的一些观点...........................................................................................43
一、搜索引擎优化合法吗?........................................................................................................43
二、会不会和搜索引擎对着干?................................................................................................43
三、搜索引擎是否会人工干预?................................................................................................44
四、我的网站有大量的优质原创内容,所以我不需要SEO了。............................................44
五、SEO没有技术含量或SEO需要很高深的技术....................................................................44
六、大网站那样做了,我也向他们学习....................................................................................44
七、SEO企业或SEO工具的保证排名宣传................................................................................44
八、稳定的排名............................................................................................................................45
九、SEO的目标就是获得排名第一的位置或尽可能多的访问量............................................45
十、竞争对手无法破坏我的排名................................................................................................45
第四章 SEO相关的搜索引擎技术......................................................................................................46 第 2 页
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net
第一节 搜索引擎机器人..................................................................................................................46
一、什么是搜索引擎机器人?....................................................................................................46
二、如何辨别搜索引擎机器人身份............................................................................................47
第二节 超链分析..............................................................................................................................47
一、基本原理...............................................................................................................................48
二、工作步骤...............................................................................................................................48
三、搜索效果...............................................................................................................................49
四、超链分析技术的应用............................................................................................................49
五、存在的缺陷............................................................................................................................50
第三节 中文分词..............................................................................................................................50
一、什么是中文分词?..................................................................................................................50
二、中文分词的意义和作用........................................................................................................50
三、中文分词技术........................................................................................................................51
四、分词中的难题........................................................................................................................53
五、中文分词的应用....................................................................................................................53
六、中文搜索引擎技术................................................................................................................54
第四节 基于词意的文本分析..........................................................................................................55
一、文本分析技术特点................................................................................................................55
二、文本分析应用........................................................................................................................55
第五章 了解网站的搜索引擎表现......................................................................................................57
第一节 基础查询..............................................................................................................................57
一、域名信息查询........................................................................................................................57
二、域名历史查询........................................................................................................................57
三、主机连接速度和IP地址查询................................................................................................57
四、同IP网站查询........................................................................................................................57
第二节 收录查询..............................................................................................................................58
一、是否被收录............................................................................................................................58
二、网页收录数量........................................................................................................................58
第三节 反向链接查询......................................................................................................................59
第四节 网页RANK查询.....................................................................................................................59
一、Google PageRank查询........................................................................................................59
二、Sogou Rank查询..................................................................................................................59
第五节 关键词排名查询..................................................................................................................59
第六节 ALEXA查询.........................................................................................................................60
一、什么是Alexa?......................................................................................................................60
二、Alexa主要数据......................................................................................................................60
三、用Alexa查什么?..................................................................................................................60
第六章 基于搜索引擎友好的网站设计..............................................................................................62
第一节 域名策略..............................................................................................................................62
一、不同后缀的域名在搜索引擎中的权重................................................................................62
二、域名基本常识........................................................................................................................62 第 3 页
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net
三、域名的关键词策略................................................................................................................69
四、中文站点的域名的拼音策略................................................................................................70
五、谨防注册一个遭受搜索引擎惩罚过的域名........................................................................70
第二节 空间策略..............................................................................................................................71
一、安全元素一:稳定性............................................................................................................71
二、安全元素二:良好的共处环境............................................................................................71
三、本节附录...............................................................................................................................72
第三节 网站结构规划......................................................................................................................72
第四节 站点导航设计......................................................................................................................73
第五节 IFRAME、JAVASCRIPT和AJAX..........................................................................................73
一、IFRAME..............................................................................................................................74
二、JS..........................................................................................................................................74
三、AJAX....................................................................................................................................74
第六节 URL设计..............................................................................................................................75
一、便于用户记忆........................................................................................................................75
二、URL静态化...........................................................................................................................75
三、URL的关键词部署...............................................................................................................78
第七节 网页代码的编写..................................................................................................................80
一、遵循WEB标准......................................................................................................................80
二、代码的逻辑性........................................................................................................................80
第八节 面向搜索引擎的文案写作指导...........................................................................................81
一、网页标题Title........................................................................................................................81
二、Meta元标签...........................................................................................................................84
三、图片ALT替换文本................................................................................................................85
四、Robots.txt............................................................................................................................85
五、链接锚文本............................................................................................................................89
六、Sitemap.xml.........................................................................................................................89
七、版权与隐私............................................................................................................................97
第九节 用户友好性检测..................................................................................................................97
一、链接的可用性........................................................................................................................97
二、访问速度体验........................................................................................................................97
三、查找信息的便捷度................................................................................................................98
第七章 创建搜索引擎喜欢的内容......................................................................................................99
第一节 搜索引擎喜欢什么内容.......................................................................................................99
一、Google对网站内容的说明:................................................................................................99
二、百度对网站内容的说明:....................................................................................................99
第二节 内容的四大来源..................................................................................................................99
一、自己撰写原创文章................................................................................................................99
二、使用他人的内容..................................................................................................................100
第三节 常见问题............................................................................................................................102
一、网站内容的更新..................................................................................................................102
二、内容匮乏怎么办..................................................................................................................103 第 4 页
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net
三、采集系统..............................................................................................................................104
四、商城程序的内容问题..........................................................................................................105
第八章 提交你的网站........................................................................................................................106
第一节 向搜索引擎提交网站........................................................................................................106
一、常用搜索引擎登录入口......................................................................................................106
二、提交注意事项......................................................................................................................106
三、登录搜索引擎的最佳办法..................................................................................................106
第二节 登录分类目录站................................................................................................................107
第三节 登录网址导航站................................................................................................................108
第四节 登录垂直行业门户............................................................................................................109
第九章 链接策略(一)....................................................................................................................111
第一节 链接的基本知识................................................................................................................111
第二节 为什么链接很重要............................................................................................................111
一、超链分析技术......................................................................................................................111
二、网页级别..............................................................................................................................111
三、网站的更新频率..................................................................................................................112
四、内容的相关性......................................................................................................................113
第三节 网站内部页面的链接策略.................................................................................................113
一、给重要的网页更多的关注..................................................................................................113
二、相关链接(人工和自动)和频道关联..............................................................................114
三、链接的导出..........................................................................................................................114
第十章 链接策略(二)....................................................................................................................115
第一节 登录开放目录DMOZ.........................................................................................................115
一、为什么登录DMOZ如此重要.............................................................................................115
二、DMOZ开放目录登录实战攻略.........................................................................................115
三、一些对你有帮助的建议......................................................................................................116
第二节 交换链接............................................................................................................................116
第三节 购买链接............................................................................................................................117
第四节 链接诱饵............................................................................................................................118
一、如何制造链接诱饵..............................................................................................................118
二、对链接诱饵应如何看待......................................................................................................118
第五节 外链建设中的几个误区.....................................................................................................119
一、外部链接数目增长的自然化..............................................................................................119
二、不要忘记你最能做好的事情..............................................................................................119
三、不宜使用软件群发..............................................................................................................120
第十一章 数据监测和分析................................................................................................................121
第一节 网站流量数据统计与分析.................................................................................................121
一、什么叫网站流量及网站流量统计分析..............................................................................121
二、网站流量指标......................................................................................................................121 第 5 页
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net
三、用户行为指标......................................................................................................................123
四、用户浏览网站的方式..........................................................................................................126
第二节 中文常见流量统计系统介绍.............................................................................................126
一、51.la统计服务.....................................................................................................................126
二、网站管理员统计..................................................................................................................126
三、ItSun统计............................................................................................................................126
四、51Yes网站流量统计............................................................................................................126
五、武林榜、太极链..................................................................................................................126
六、一统天下统计服务..............................................................................................................127
七、趋势流量分析系统..............................................................................................................127
八、Google Analytics................................................................................................................127
九、Measure Map.....................................................................................................................127
十、Statcounter.com.................................................................................................................127
第三节 流量统计分析实例............................................................................................................128
一、典型性数据采集抓取..........................................................................................................128
二、IP与PV...............................................................................................................................128
三、网页访问入口分析..............................................................................................................130
四、搜索引擎流量导入..............................................................................................................131
五、搜索引擎关键词分析..........................................................................................................132
第四节 行业热点跟踪....................................................................................................................133
一、Yahoo风向标:...................................................................................................................133
二、百度风云榜:......................................................................................................................133
三、百度指数..............................................................................................................................134
第十二章 高端技巧............................................................................................................................137
第一节 搜索行为分析....................................................................................................................137
一、什么是搜索行为分析..........................................................................................................137
二、为什么要进行用户搜索行为分析......................................................................................137
三、用户搜索行为的几个特点..................................................................................................137
四、搜索行为分析的重点对象..................................................................................................138
五、搜索行为变化情况..............................................................................................................138
六、用户的关键词搜索行为......................................................................................................140
第二节 关键词分析........................................................................................................................143
一、什么是关键词......................................................................................................................143
二、如何挑选正确的关键词......................................................................................................143
三、竞价关键词的选择..............................................................................................................147
四、关键词竞争程度分析..........................................................................................................148
五、关键词查询工具..................................................................................................................153
第三节 关键词密度........................................................................................................................153
一、什么是关键词密度..............................................................................................................153
二、正确理解关键词密度..........................................................................................................153
三、适当的关键词密度..............................................................................................................153
四、关键词位置和形式..............................................................................................................154 第 6 页
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net
五、Google 和Yahoo的区别.....................................................................................................156
六、关键词密度的基本原则......................................................................................................156
七、如何增加关键词密度..........................................................................................................157
八、关键词密度工具..................................................................................................................158
第四节 信息干扰现象....................................................................................................................158
一、信噪比与干扰信息..............................................................................................................158
二、信息干扰的副作用..............................................................................................................158
三、如何减小信息干扰..............................................................................................................158
第五节 重定向...............................................................................................................................159
一、什么是重定向......................................................................................................................159
二、301重定向...........................................................................................................................159
三、302重定向...........................................................................................................................161
四、404重定向...........................................................................................................................162
五、其他重定向..........................................................................................................................164
第六节 垂直搜索引擎优化概览(图片搜索、移动搜索等).....................................................165
一、图片搜索..............................................................................................................................165
二、Flash...................................................................................................................................167
三、视频搜索..............................................................................................................................167
四、避免搜索中的搜索..............................................................................................................168
第十三章 几个重要的问题................................................................................................................169
第一节 搜索引擎排名作弊............................................................................................................169
一、什么是搜索引擎作弊?......................................................................................................169
二、搜索引擎排名作弊的常见形式..........................................................................................169
三、常见的作弊载体..................................................................................................................171
第二节 搜索引擎的反作弊............................................................................................................172
一、为什么搜索引擎要反作弊..................................................................................................172
二、搜索引擎对待SEO与作弊的态度......................................................................................172
三、主要搜索引擎反作弊的一些规定......................................................................................173
四、搜索引擎惩罚站点事件举例..............................................................................................175
第三节 搜索引擎惩罚和解除........................................................................................................176
一、搜索引擎惩罚的方式..........................................................................................................176
二、站点被惩罚后的影响..........................................................................................................176
三、如何投诉作弊......................................................................................................................177
四、你的站点是否被惩罚?......................................................................................................177
五、搜索引擎作弊惩罚解除流程..............................................................................................178
第四节 搜索引擎反作弊任重道远.................................................................................................178
一、搜索垃圾永不会消失..........................................................................................................178
二、搜索引擎反作弊的历程......................................................................................................179
三、石头记录的2005年SEO作弊状况....................................................................................180
四、曾经的作弊有多疯狂..........................................................................................................182
五、SEO的职业道德..................................................................................................................186
六、搜索引擎反作弊的人性化..................................................................................................189 第 7 页
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 www.timev.net
七、搜索引擎反作弊的法律支持..............................................................................................190
第十四章 附录...................................................................................................................................191
第一节 搜索引擎发展史................................................................................................................191
一、搜索引擎编年史:全球......................................................................................................191
二、搜索引擎编年史:中国......................................................................................................197
第二节 搜索引擎行业八卦............................................................................................................200
一、中国SEO市场概况..............................................................................................................200
二、杨致远为Yahoo做优化.......................................................................................................201
三、SEO大赛..............................................................................................................................201
第三节 SEO工具介绍.....................................................................................................................202
一、SEO工具软件种类..............................................................................................................202
二、Google Sitemaps................................................................................................................206
三、通过sitemaps分析死链.......................................................................................................206
第四节 GOOGLE的几个著名现象...................................................................................................207
一、Google Trust Rank...........................................................................................................207
二、Google Sandbox.................................................................................................................208
三、Google Dance.....................................................................................................................210
四、Sitelinks..............................................................................................................................211
五、补充材料..............................................................................................................................213 第 8
搜索引擎技术
前言
第一章引论.................................................................................................................1
第一节 搜索引擎的概念................................................................................................2
第二节 搜索引擎的发展历史........................................................................................3
第三节 一些著名的搜索引擎........................................................................................7
上篇 WEB搜索引擎基本原理和技术....................................................................16
第二章 WEB搜索引擎工作原理和体系结构..........................................................17
第一节 基本要求..........................................................................................................17
第二节 网页搜集..........................................................................................................18
第三节 预处理..............................................................................................................20
第四节 查询服务..........................................................................................................22
第五节 体系结构..........................................................................................................25
第三章 WEB信息的搜集..........................................................................................29
第一节 引言..................................................................................................................29
一、 超文本传输协议..............................................................................................29
二、 一个小型搜索引擎系统..................................................................................31
第二节 网页搜集..........................................................................................................33
一、 定义URL类和Page类......................................................................................34
二、 与服务器建立连接..........................................................................................39
三、 发送请求和接收数据......................................................................................41
四、 网页信息存储的天网格式..............................................................................42
第三节 多道搜集程序并行工作..................................................................................45
一、 多线程并发工作..............................................................................................46
二、 控制对一个站点并发搜集线程的数目..........................................................47
第四节 如何避免网页的重复搜集..............................................................................47
一、 记录未访问、已访问URL和网页内容摘要信息..........................................47
二、 域名与IP的对应问题......................................................................................48
第五节 如何首先搜集重要的网页..............................................................................49
第六节 搜集信息的类型..............................................................................................52
第七节本章小结..........................................................................................................54 iii
第四章对搜集信息的预处理...................................................................................55
第一节 信息预处理的系统结构..................................................................................55
第二节 索引网页库......................................................................................................56
第三节 中文自动分词..................................................................................................58
第四节分析网页和建立倒排文件..............................................................................64
第五节本章小结..........................................................................................................66
第五章信息查询服务...............................................................................................67
第一节 查询服务的系统结构......................................................................................67
第二节 检索的定义......................................................................................................68
第三节 查询服务的实现..............................................................................................69
一、 结果集合的形成..............................................................................................69
二、 查询结果显示.................................................................................................70
第四节 本章小结..........................................................................................................72
中篇 对质量和性能的追求.....................................................................................73
第六章可扩展搜集子系统.......................................................................................75
第一节 天网系统概述和集中式搜集系统结构...........................................................75
一、 天网系统结构.................................................................................................75
二、 集中式搜集系统..............................................................................................76
第二节 利用并行处理技术高效搜集网页的一种方案...............................................82
一、 节点间URL的划分策略..................................................................................83
二、 关于性能的讨论..............................................................................................86
三、 性能测试和评价..............................................................................................88
四、 系统的动态可配置性设计..............................................................................91
第三节 本章小结..........................................................................................................93
第七章网页净化与消重...........................................................................................95
第一节 网页净化与元数据提取..................................................................................95
一、 引言.................................................................................................................95
二、 DocView模型..................................................................................................98
三、 网页的表示.....................................................................................................99
四、 提取DocView模型要素的方法.....................................................................103
五、 模型应用及实验研究....................................................................................108
第二节 网页消重算法................................................................................................112
一、 消重算法.......................................................................................................112 iv
二、 算法评测.......................................................................................................115
第八章高性能检索子系统.....................................................................................120
第一节 检索系统基本技术........................................................................................121
一、 系统设计与结构............................................................................................121
二、 索引创建.......................................................................................................124
三、 检索过程.......................................................................................................126
第二节 倒排文件性能模型........................................................................................127
一、 引言...............................................................................................................128
二、 倒排文件的概念............................................................................................129
三、 倒排文件的一种性能模型............................................................................131
四、 结合计算机性能指标的考虑........................................................................136
第三节 混合索引技术................................................................................................138
一、 引言...............................................................................................................138
二、 混合索引原理...............................................................................................139
三、 混合索引实现...............................................................................................141
第四节 倒排文件缓存机制........................................................................................144
一、 引言...............................................................................................................144
二、 倒排文件缓存...............................................................................................145
三、 负载特性.......................................................................................................147
四、 缓存策略的选择............................................................................................149
第五节 本章小结........................................................................................................149
第九章用户行为的特征及缓存的应用.................................................................151
第一节 用户查询与点击日志....................................................................................152
第二节 用户行为特征的统计分析............................................................................154
一、 用户查询词的分布情况................................................................................154
二、 雷同查询词的衰减统计................................................................................155
三、 相邻N项查询词的偏差分析.........................................................................156
四、 用户在输出结果中的翻页情况统计............................................................158
五、 用户点击URL的分布情况............................................................................159
六、 考虑与不考虑查询项时点击URL分布的对比分析....................................160
七、 查询过程的自相似性....................................................................................161
第三节 查询缓存的使用............................................................................................164
一、 基于用户行为的启示....................................................................................164
二、 缓存替换策略研究........................................................................................165 v
第四节 用户行为与WEB信息的分布特征.................................................................167
一、 基本术语.......................................................................................................167
二、 海量Web信息的特征分析.............................................................................168
第十章相关排序与系统质量评估.........................................................................173
第一节 传统IR的相关排序技术................................................................................173
第二节 链接分析与相关排序....................................................................................176
一、 链接分析.......................................................................................................176
二、 Web查询模式下的新信息............................................................................178
第三节 相关排序的一种实现方案............................................................................182
一、 形成网页中词项的基本权重........................................................................183
二、 利用链接的结构............................................................................................185
三、 收集用户反馈信息........................................................................................187
四、 计算最终的权重............................................................................................189
第四节 搜索引擎系统质量评估................................................................................191
一、 引言...............................................................................................................191
二、 查询类别分析与查询集的构建....................................................................192
三、 评估实验的建立与分析................................................................................193
下篇 面向主题和个性化的WEB信息服务..........................................................196
第十一章中文网页自动分类技术.........................................................................197
第一节 引言................................................................................................................197
第二节 文档自动分类算法的类型............................................................................197
第三节 实现中文网页自动分类的一般过程.............................................................199
第四节 影响分类器性能的关键因素分析.................................................................201
一、 实验设置.......................................................................................................201
二、 训练样本.......................................................................................................202
三、 特征选取.......................................................................................................207
四、 分类算法.......................................................................................................210
五、 截尾算法.......................................................................................................216
六、 一个中文网页分类器的设计方案................................................................218
第五节 天网目录导航服务........................................................................................219
一、 问题的提出...................................................................................................219
二、 天网目录导航服务的体系结构....................................................................220
三、 天网目录的运行实例....................................................................................221
第六节 本章小结........................................................................................................221 vi
第十二章搜索引擎个性化查询服务.....................................................................223
第一节 基于WEB挖掘的个性化技术.........................................................................223
一、 Web挖掘技术................................................................................................224
二、 典型个性化Web服务系统的比较.................................................................225
三、 基于Web挖掘的个性化技术的发展.............................................................226
第二节 天网知名度系统............................................................................................227
一、 系统结构.......................................................................................................227
二、 网页与命名实体的相关度评价....................................................................231
第十三章面向主题的信息搜集与应用.................................................................235
第一节 主题信息的搜集............................................................................................235
一、 主题信息分布的局部性................................................................................235
二、 一种主题信息搜集系统................................................................................236
第二节 主题信息的一种搜集与处理模型及其应用.................................................238
一、 模型设计.......................................................................................................238
二、 应用实验:以“十六大”为主题................................................................242
三、 总结与讨论...................................................................................................244
参考文献...................................................................................................................245
附录. 术语................................................................................................................256
后记...........................................................................................................................264
vii
图示
图1-1 2003年8月20日在天网上检索“伊拉克战争”的结果................3
图1-2 2003年8月20日在搜狐上检索“伊拉克战争”的结果................5
图2-1 搜索引擎示意图................................................................................17
图2-2 搜索引擎三段式工作流程................................................................18
图2-3 搜索引擎的体系结构........................................................................26
图3-1 TSE搜索引擎界面..............................................................................31
图3-2 TSE查询结果页面..............................................................................32
图3-3 TSE网页快照页面..............................................................................32
图3-4 TSE系统结构.....................................................................................33
图3-5 Web信息的搜集.................................................................................34
图3-6 Sockets和端口....................................................................................39
图3-7 通过Socket建立连接.........................................................................40
图3-8 Web象个海洋.....................................................................................51
图4-1 网页预处理系统结构........................................................................55
图4-2 原始网页库中的记录格式................................................................56
图4-3 索引网页库算法................................................................................57
图4-4 正向减字最大匹配算法流程............................................................61
图4-5 切词算法流程....................................................................................62
图4-6分析网页与建立倒排文件流程.........................................................64
图4-7 过滤网页中非正文信息算法............................................................64
图4-8 正向索引表记录格式........................................................................65
图4-9 由正向索引建立反向索引................................................................65
图5-1 信息查询的系统结构........................................................................67
图5-2 基本检索算法....................................................................................69
图5-3 动态摘要算法....................................................................................71
图5-4 用户查询日志的记录格式................................................................71
图6-1 天网系统概貌....................................................................................76
图6-2 搜集系统的主控结构........................................................................78
图6-3 协调进程工作算法............................................................................85
图6-4 分布式Web搜集系统结构.................................................................86
图6-5 负载方差...........................................................................................89
图6-6 n个节点并行搜集系统及集中式系统性能随时间的变化...............90
图6-7 分布式系统效率................................................................................91 viii
图6-8 URL两阶段映射.................................................................................92
图7-1 用DocView模型提取的网页要素.....................................................99
图7-2 净化后的网页....................................................................................99
图7-3 HTML Tree 结构.............................................................................101
图7-4 内容块权值传递过程......................................................................102
图7-5 有主题网页DocView模型生成过程...............................................105
图7-6 计算网页特征项权值的算法..........................................................105
图7-7 正文段落识别过程..........................................................................106
图7-8 基于anchor text的超链选取算法....................................................107
图7-9 网页净化前后分类效果对比..........................................................109
图7-10 查全率随选取关键词个数的变化................................................117
图8-1 检索系统集成框架结构..................................................................122
图8-2 天网WWW检索分布式系统构架...................................................123
图8-3 倒排文件结构示意图......................................................................130
图8-4 英语单词和汉语字符的ITF分布....................................................136
图8-5 扩展词典树结构示例......................................................................143
图8-6 扩展词典匹配查找算法..................................................................144
图8-7 搜索引擎检索系统缓存结构..........................................................145
图8-8 文档数据访问对象大小分布..........................................................148
图8-9 I/O与PAGE序列序号-频度分布......................................................148
图8-10 I/O与PAGE序列时间间隔分布.....................................................149
图8-11 I/O和PAGE序列中唯一模式串......................................................149
图9-1 查询词的分布情况..........................................................................154
图9-2 查询词分布函数及其拟合函数......................................................155
图9-3 雷同查询词的衰减..........................................................................156
图9-4 相邻1000项查询词的频率的差的平方和....................................157
图9-5用户翻页情况统计...........................................................................158
图9-6 用户点击URL的分布情况..............................................................159
图9-7 考虑查询项与否的URL分布情况..................................................160
图9-8 相邻500项中不同查询项的分布..................................................162
图9-9 相邻1000项中不同查询项的分布................................................162
图9-10 相邻2000项中不同查询项的分布..............................................163
图9-11 查询项分布的自相似性特征........................................................163
图9-12 FIFO、LRU和带衰减的LFU的缓存命中率比较.........................166
图9-13 3种替换策略的局部比较..............................................................166
图9-14 网页的被访问次数........................................................................169 ix
图9-15 用户点击url对应网页的入度.......................................................170
图9-16 用户点击url对应网页的镜像度...................................................170
图9-17 用户点击url对应网页的目录深度...............................................171
图9-18 站内网页的树状结构....................................................................171
图10-1 Inktomi提供的几种搜索引擎技术的比较....................................179
图10-2 词典在系统中的地位....................................................................180
图10-3 新词学习.......................................................................................181
图10-4 网页的互联结构示意....................................................................185
图11-1 自动文档分类算法的分类............................................................199
图11-2 中文网页自动分类的一般过程....................................................200
图11-3 中文网页分类器的工作原理图....................................................200
图11-4 WebSmart —一个网页实例集搜集和整理工具...........................204
图11-5 一种中文网页的分类体系............................................................205
图11-6 Macro-F1值随样本数的变化..........................................................206
图11-7 Micro-F1值随样本数的变化..........................................................206
图11-8 CHI、IG、DF、MI的比较(Macro-F1).....................................209
图11-9 CHI、IG、DF、MI的比较(Micro-F1).....................................210
图11-10 kNN与NB分类结果的比较..........................................................213
图11-11 k的取值对分类器质量的影响(Marco-F1)..............................214
图11-12 k的取值对分类器质量的影响(Micro-F1)...............................214
图11-13 兰式距离法与欧式距离法对12个不同类别的分类情况........215
图11-14 基于层次模型的kNN与基本kNN的比较...................................216
图11-15 RCut和SCut截尾算法的比较.......................................................218
图11-16 天网目录的体系结构..................................................................220
图11-17 天网目录导航服务......................................................................221
图12-1 Web个性化的实质.........................................................................224
图12-2 Web挖掘的分类.............................................................................224
图12-3 网页与实体相关度的建立............................................................228
图12-4 个性化知名度示意图....................................................................228
图12-5 “天网知名度”系统结构............................................................230
图13-1 页面对的平均相关性....................................................................236
图13-2 Foused Crawler的系统结构...........................................................237
图13-3 用于表达网上主题新闻强度指标的立方体................................240
图13-4 十六大网页数量在10月22至11月24期间的变化情况........244 x
表格
表4-1 网页索引文件.......................................................................................................58
表4-2 URL索引文件........................................................................................................58
表6-1 Soif数据描述..........................................................................................................78
表6-2 Soif具体语法..........................................................................................................80
表6-3 参照序列,假设节点数为2...............................................................................89
表7-1 类别编号对照表.................................................................................................110
表7-2 消重实验结果.....................................................................................................111
表7-3 当N=10、δ=0.01时5种算法的查全率和准确率.....................................116
表7-4 考察δ的取值对算法3和4的影响..............................................................117
表7-5 分段签名算法的时间复杂度及性能..............................................................118
表7-6 基于关键词的各算法的时间复杂度及性能 (N=10, δ=0.01)..................118
表8-1 英汉词频统计排序对照...................................................................................134
表8-2 一些典型磁盘的性能数据...............................................................................136
表8-3 数据集基本统计信息.......................................................................................146
表9-1 用户在前5页的翻页情况统计......................................................................158
表9-2 调整后的LFU与LRU命中率的比较..............................................................166
表9-3 各网页参数的分布............................................................................................169
表10-1新词学习对检索准确率的影响.....................................................................182
表10-2 影响权值的HTML标签.................................................................................184
表10-3 补偿因子定义表..............................................................................................188
表10-4 用户查询信息类别..........................................................................................193
表11-1 样本集中类别及实例数量的分布情况表...................................................203
表11-2 kNN和NB算法的分类质量和分类效率比较..............................................213
表11-3 欧式距离与兰式距离的比较........................................................................215
表11-4 基于层次模型的kNN与基本kNN的比较...................................................216
表11-5 RCut和SCut截尾算法的比较.........................................................................217
表11-6 一个分类器的设计方案.................................................................................218
表12-1 典型Web个性化系统的比较.........................................................................225
表12-2 天网知名度系统与其他检索系统的横向比较结果.................................232
表12-3 天网知名度系统的纵向比较结果................................................................234
搜索引擎-原理、技术与系统
目录
前言
第一章引论.................................................................................................................1
第一节 搜索引擎的概念................................................................................................2
第二节 搜索引擎的发展历史........................................................................................3
第三节 一些著名的搜索引擎........................................................................................7
上篇 WEB搜索引擎基本原理和技术....................................................................16
第二章 WEB搜索引擎工作原理和体系结构..........................................................17
第一节 基本要求..........................................................................................................17
第二节 网页搜集..........................................................................................................18
第三节 预处理..............................................................................................................20
第四节 查询服务..........................................................................................................22
第五节 体系结构..........................................................................................................25
第三章 WEB信息的搜集..........................................................................................29
第一节 引言..................................................................................................................29
一、 超文本传输协议..............................................................................................29
二、 一个小型搜索引擎系统..................................................................................31
第二节 网页搜集..........................................................................................................33
一、 定义URL类和Page类......................................................................................34
二、 与服务器建立连接..........................................................................................39
三、 发送请求和接收数据......................................................................................41
四、 网页信息存储的天网格式..............................................................................42
第三节 多道搜集程序并行工作..................................................................................45
一、 多线程并发工作..............................................................................................46
二、 控制对一个站点并发搜集线程的数目..........................................................47
第四节 如何避免网页的重复搜集..............................................................................47
一、 记录未访问、已访问URL和网页内容摘要信息..........................................47
二、 域名与IP的对应问题......................................................................................48
第五节 如何首先搜集重要的网页..............................................................................49
第六节 搜集信息的类型..............................................................................................52
第七节本章小结..........................................................................................................54 iii
第四章对搜集信息的预处理...................................................................................55
第一节 信息预处理的系统结构..................................................................................55
第二节 索引网页库......................................................................................................56
第三节 中文自动分词..................................................................................................58
第四节分析网页和建立倒排文件..............................................................................64
第五节本章小结..........................................................................................................66
第五章信息查询服务...............................................................................................67
第一节 查询服务的系统结构......................................................................................67
第二节 检索的定义......................................................................................................68
第三节 查询服务的实现..............................................................................................69
一、 结果集合的形成..............................................................................................69
二、 查询结果显示.................................................................................................70
第四节 本章小结..........................................................................................................72
中篇 对质量和性能的追求.....................................................................................73
第六章可扩展搜集子系统.......................................................................................75
第一节 天网系统概述和集中式搜集系统结构...........................................................75
一、 天网系统结构.................................................................................................75
二、 集中式搜集系统..............................................................................................76
第二节 利用并行处理技术高效搜集网页的一种方案...............................................82
一、 节点间URL的划分策略..................................................................................83
二、 关于性能的讨论..............................................................................................86
三、 性能测试和评价..............................................................................................88
四、 系统的动态可配置性设计..............................................................................91
第三节 本章小结..........................................................................................................93
第七章网页净化与消重...........................................................................................95
第一节 网页净化与元数据提取..................................................................................95
一、 引言.................................................................................................................95
二、 DocView模型..................................................................................................98
三、 网页的表示.....................................................................................................99
四、 提取DocView模型要素的方法.....................................................................103
五、 模型应用及实验研究....................................................................................108
第二节 网页消重算法................................................................................................112
一、 消重算法.......................................................................................................112 iv
二、 算法评测.......................................................................................................115
第八章高性能检索子系统.....................................................................................120
第一节 检索系统基本技术........................................................................................121
一、 系统设计与结构............................................................................................121
二、 索引创建.......................................................................................................124
三、 检索过程.......................................................................................................126
第二节 倒排文件性能模型........................................................................................127
一、 引言...............................................................................................................128
二、 倒排文件的概念............................................................................................129
三、 倒排文件的一种性能模型............................................................................131
四、 结合计算机性能指标的考虑........................................................................136
第三节 混合索引技术................................................................................................138
一、 引言...............................................................................................................138
二、 混合索引原理...............................................................................................139
三、 混合索引实现...............................................................................................141
第四节 倒排文件缓存机制........................................................................................144
一、 引言...............................................................................................................144
二、 倒排文件缓存...............................................................................................145
三、 负载特性.......................................................................................................147
四、 缓存策略的选择............................................................................................149
第五节 本章小结........................................................................................................149
第九章用户行为的特征及缓存的应用.................................................................151
第一节 用户查询与点击日志....................................................................................152
第二节 用户行为特征的统计分析............................................................................154
一、 用户查询词的分布情况................................................................................154
二、 雷同查询词的衰减统计................................................................................155
三、 相邻N项查询词的偏差分析.........................................................................156
四、 用户在输出结果中的翻页情况统计............................................................158
五、 用户点击URL的分布情况............................................................................159
六、 考虑与不考虑查询项时点击URL分布的对比分析....................................160
七、 查询过程的自相似性....................................................................................161
第三节 查询缓存的使用............................................................................................164
一、 基于用户行为的启示....................................................................................164
二、 缓存替换策略研究........................................................................................165 v
第四节 用户行为与WEB信息的分布特征.................................................................167
一、 基本术语.......................................................................................................167
二、 海量Web信息的特征分析.............................................................................168
第十章相关排序与系统质量评估.........................................................................173
第一节 传统IR的相关排序技术................................................................................173
第二节 链接分析与相关排序....................................................................................176
一、 链接分析.......................................................................................................176
二、 Web查询模式下的新信息............................................................................178
第三节 相关排序的一种实现方案............................................................................182
一、 形成网页中词项的基本权重........................................................................183
二、 利用链接的结构............................................................................................185
三、 收集用户反馈信息........................................................................................187
四、 计算最终的权重............................................................................................189
第四节 搜索引擎系统质量评估................................................................................191
一、 引言...............................................................................................................191
二、 查询类别分析与查询集的构建....................................................................192
三、 评估实验的建立与分析................................................................................193
下篇 面向主题和个性化的WEB信息服务..........................................................196
第十一章中文网页自动分类技术.........................................................................197
第一节 引言................................................................................................................197
第二节 文档自动分类算法的类型............................................................................197
第三节 实现中文网页自动分类的一般过程.............................................................199
第四节 影响分类器性能的关键因素分析.................................................................201
一、 实验设置.......................................................................................................201
二、 训练样本.......................................................................................................202
三、 特征选取.......................................................................................................207
四、 分类算法.......................................................................................................210
五、 截尾算法.......................................................................................................216
六、 一个中文网页分类器的设计方案................................................................218
第五节 天网目录导航服务........................................................................................219
一、 问题的提出...................................................................................................219
二、 天网目录导航服务的体系结构....................................................................220
三、 天网目录的运行实例....................................................................................221
第六节 本章小结........................................................................................................221 vi
第十二章搜索引擎个性化查询服务.....................................................................223
第一节 基于WEB挖掘的个性化技术.........................................................................223
一、 Web挖掘技术................................................................................................224
二、 典型个性化Web服务系统的比较.................................................................225
三、 基于Web挖掘的个性化技术的发展.............................................................226
第二节 天网知名度系统............................................................................................227
一、 系统结构.......................................................................................................227
二、 网页与命名实体的相关度评价....................................................................231
第十三章面向主题的信息搜集与应用.................................................................235
第一节 主题信息的搜集............................................................................................235
一、 主题信息分布的局部性................................................................................235
二、 一种主题信息搜集系统................................................................................236
第二节 主题信息的一种搜集与处理模型及其应用.................................................238
一、 模型设计.......................................................................................................238
二、 应用实验:以“十六大”为主题................................................................242
三、 总结与讨论...................................................................................................244
SQLiteExpert3.4安装文件+注册码
SQLiteExpert3.4安装文件+注册码
解压安装 注册有说明
mac drive 8安装文件+注册机
mac drive 8安装文件+注册机 有注册详细步骤