第二节:搜索引擎基础原理(seo前线seo网站优化培训)

目录

建议参加者:

课程内容简介:

课后:


建议参加者:

还没有体会到搜索引擎原理在SEO上有什么用处的培训参加者。

课程内容简介:

解读《走进搜索引擎》,说明哪些是对于SEO需要看的,哪些是相对不重要的。并对于中文分词、倒排索引等重点部分进行详细的讲解。

课后:

逐渐阅读理解《走进搜索引擎》的重点章节。

上半节

1. 抓取系统

爬虫只是个下载器,可以把它想象成迅雷。它本身的分析能力很有限,仅有的分析功能主要是提取页面上的链接从而不断抓取。搜索引擎的大多数分析步骤,都是在页面先被抓回去以后做的。

常见的对于爬虫的误解如,搜索引擎无法很好的抓取动态网页。

2. 分析系统

分析系统会用程序来尽力解读网页的类型、主题等。

3. 索引系统

索引系统将网页内容转化为倒排索引,以支持海量数据的迅速查询。

4. 查询系统

当用户搜索词的时候,会触发搜索引擎的查询系统。它涉及到搜索结果的排序等,一般是SEO最为关注的部分。

《走进搜索引擎》(第二版)重点章节

下载系统

Page 6 搜索引擎的体系结构

Page 12 万维网的直径——扁平化网站的重要性

Page 16 宽度优先策略——百度大致策略

Page 19 不重复抓取策略

Page 25 网页抓取优先策略

Page 26 网页重访策略——快照更新的本质

Page 31 其他应该主要注意的礼貌性问题——抓取压力反馈

分析系统

Page 46 网页结构化的目标——区块重要性差异

Page 52 通过投票方法得到正文

Page 56 网页查重——伪原创不可行 & 特征项

Page 61 中文分词——同关键词对应多个页面是否分散权重

Page 68 PageRank的基本想法——反链有效的原因

索引系统

Page 87 倒排索引——检索的本质 & 关键词的伪概念

查询系统

Page 113 什么是信息熵——原创文章!=有价值的文章

Page 115 检索词和查询词的区别——区域性排名

Page 116 自动文本摘要——不显示description的原因

Page 122 关键词权重的量化方法TF-IDF

Page 137 中文自动摘要——摘要可控

Page 145 推测用户查询意图

排序学习

Page 186 查询相关/无关的排序模型——排名因素的细分

Page 217 排序特征

搜索引擎的性能调优——性能瓶颈

下半节

下载网页 -> 中文分词 -> 倒排索引 -> 查询

Python实例:最简单的搜索引擎

搜索引擎眼中,网页是由大量词构成的。

思考:为什么在网页里面重复出现关键词,有时可以提升排名?

内容提要编辑 在网络普及的今天,人们经常在信息海洋中彷徨,在万维网迷宫般的复杂与魅力之间挣扎。直到搜索引擎这一伟大的技术产生,才使得人们犹如找到了走出迷宫的灯塔,可以非常便捷地找到自己所需要的信息。 正是因为搜索引擎离我们越来越近,所以越来越多的人期待着能够揭开她神秘的面纱。其实搜索引擎并不是变幻莫测的大海,也不是高不可攀的山峰。请拿起本书,它就是引领你的火炬,它就是你身边的伙伴,它将带着你走进搜索引擎。在那里,你必将会被搜索引擎精致的设计和宏伟的架构所征服。 本书由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解和实际应用巧妙地结合,使得从未接触过搜索引擎原理的读者也能够轻松地在搜索引擎的大厦中遨游一番。 编辑推荐编辑 《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程技术人员难得的参考书,也可作为大中专院校相关专业的教学辅导书。 图书作者编辑 梁斌毕业于南京大学,获得软件工程硕士学位,曾经发表过多篇论文,获得1项国家专利,作者主要的兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等,目前在清华大学信息科学与技术国家实验室从事搜索引擎相关研究工作。 图书目录编辑 第一章引言 第一节什么是搜索引擎 第二节搜索引擎的发展简史 搜索引擎的发展历史 第三节搜索引擎大事快览 第四节国内著名搜索引擎 百度 中搜 天网 搜狗 参考文献 第二章搜索引擎概貌 第一节搜索引擎的主要需求 查得快 查得全 查得准 查得稳 第二节搜索引擎的大系统 搜索引擎的体系结构 第三章搜索引擎的下载系统 第一节爬虫的发展历史 世界上第一个爬虫 爬虫的发展历程 第二节万维网及其网页分析 蝴蝶结型的万维网 万维网的直径 万维网的规模及变化特征 网页的特征 第三节有关爬虫的基本概念 爬虫 种子站点 URL Backlinks
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值