每周一书《大数据搜索引擎原理分析及编程实现》分享!

每周一书《大数据搜索引擎原理分析及编程实现》分享!

内容简介

本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织。着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值。还阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习机制,使得搜索引擎更加智能。本书适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。

https://i-blog.csdnimg.cn/blog_migrate/f42ffd34ba6098c133aec6aced3bf4a3.jpeg

 

▲图片来源于网络

试用对象

1、适合对自然语言处理及机器学习应用领域有兴趣的读者。

2、适合对现代搜索引擎相关算法有兴趣的读者。

3、适合对大数据分析、数据挖掘应用有兴趣的读者。

4、适合互联网行业的不同层次从业者。

5、适合从事搜索引擎优化的网络营销读者。

6、适合高校中学习计算机、软件工程等相关专业的读者。

目录

第1章 引论1

1.1 搜索引擎的过去1

1.2 搜索引擎的现在2

1.3 搜索引擎的未来4

1.4 大数据与搜索引擎6

1.4.1 搜索价值提升6

1.4.2 用户价值提升7

1.5 大数据与人工智能7

1.5.1 人工智能发展7

1.5.2 人工智能技术9

1.6 本章小结11

第2章 搜索引擎原理与技术12

2.1 基本工作原理12

2.2 基本模块结构13

2.2.1 爬虫服务14

2.2.2 索引服务15

2.2.3 缓存服务16

2.2.4 搜索服务17

2.2.5 日志服务19

2.3 技术概要20

2.3.1 自然语言处理20

2.3.2 知识图谱技术21

2.3.3 海量数据存储23

2.3.4 分布式计算25

2.3.5 搜索排序技术26

2.4 本章小结27

第3章 自然语言处理框架28

3.1 英文分词28

3.2 中文分词30

3.2.1 中文分词概述30

3.2.2 基于词库的分词技术31

3.2.3 基于条件随机场的中文分词33

3.2.4 分词粒度41

3.3 词性标注41

3.3.1 隐马尔科夫模型概要42

3.3.2 隐马尔科夫模型与词性标注43

3.4 语义相似度51

3.5 依存句法分析53

3.5.1 依存句法分析概要53

3.5.2 依存句法分析实现56

3.6 情感倾向分析59

3.7 文档关键词抽取61

3.7.1 关键词抽取概述61

3.7.2 基于TF-IDF算法62

3.7.3 基于TextRank算法64

3.8 文档句子相似度分析67

3.8.1 句子相似度68

3.8.2 文档相似度70

3.9 文档核心句抽取71

3.10 聚类分类74

3.10.1 文本分类75

3.10.2 文本聚类80

3.11 语种检测84

3.12 本章小结87

第4章 构建大数据存储引擎88

4.1 架构体系89

4.1.1 结构概要89

4.1.2 服务器上线92

4.1.3 服务器下线92

4.1.4 数据读取93

4.2 数据模型94

4.3 数据压缩96

4.4 负载均衡97

4.5 数据存储逻辑视图100

4.6 本章小结103

第5章 构建分布式实时计算104

5.1 概述104

5.2 设计架构106

5.2.1 设计思想106

5.2.2 基本框架108

5.3 运行模式110

5.4 负载均衡111

5.5 通信设计112

5.5.1 基本方式113

5.5.2 分布式远程服务调用113

5.6 容灾恢复114

5.7 数据容错原理115

5.8 数据处理设计示例117

5.9 本章小结118

第6章 分布式可扩展爬虫119

6.1 爬虫体系架构119

6.1.1 主从分布式结构爬虫120

6.1.2 对等分布式结构爬虫120

6.1.3 基于分布式计算平台爬虫121

6.2 网页解析122

6.2.1 状态码处理123

6.2.2 链接去重123

6.2.3 广告识别125

6.2.4 网站地图128

6.2.5 非网页数据获取129

6.2.6 网页去重130

6.2.7 链接提取134

6.2.8 爬虫协议135

6.3 网页结构化137

6.3.1 网页的编码信息137

6.3.2 网页的正文信息138

6.3.3 网站的关键词信息142

6.3.4 网站的标题142

6.3.5 网页的发布时间144

6.3.6 网站语言检测144

6.3.7 其他结构化数据145

6.4 网页抓取策略146

6.5 爬虫权限应对147

6.6 深网抓取150

6.7 抓取更新策略151

6.8 本章小结153

第7章 大数据构建知识图谱154

7.1 概述154

7.2 搜索引擎与知识图谱155

7.3 可靠数据源选择157

7.4 实体抽取158

7.5 关系抽取159

7.5.1 关系抽取概述160

7.5.2 隐藏关系抽取161

7.5.3 结构化确定关系抽取164

7.5.4 非结构化确定关系抽取166

7.6 知识图谱检测171

7.6.1 实体关系修正171

7.6.2 实体对齐整合172

7.6.3 实体歧义分析174

7.7 知识推理与计算175

7.7.1 知识推理175

7.7.2 知识计算176

7.8 知识聚类179

7.9 智能搜索实现181

7.9.1 模式匹配181

7.9.2 知识拆解182

7.9.3 合并求解184

7.10 智能搜索扩展186

7.10.1 常识性智能搜索186

7.10.2 实时信息智能搜索187

7.10.3 可交互式智能搜索187

7.11 本章小结189

第8章 索引构建机制190

8.1 倒排索引190

8.1.1 倒排索引概述191

8.1.2 索引结构192

8.1.3 构建过程194

8.1.4 排序规则195

8.1.5 索引压缩196

8.1.6 更新策略202

8.2 分布式存储202

8.2.1 存储划分方式203

8.2.2 存储平衡策略204

8.3 存储索引209

8.3.1 二叉搜索树210

8.3.2 B树211

8.3.3 B+树213

8.3.4 B+树与文件索引214

8.4 字典树索引216

8.4.1 字典树索引概述217

8.4.2 字典树索引构建219

8.4.3 字典树查询优化221

8.5 本章小结221

第9章 搜索服务构建223

9.1 概述223

9.1.1 体系结构223

9.1.2 七何分析法224

9.1.3 搜索语法225

9.1.4 相关性排序227

9.1.5 不安全信息过滤231

9.2 大数据分布式缓存235

9.2.1 缓存结构设计235

9.2.2 缓存更新策略236

9.3 文本纠错算法237

9.3.1 中文文本纠错237

9.3.2 英文文本纠错241

9.4 结果显示算法242

9.4.1 动态摘要243

9.4.2 关键词高亮算法246

9.4.3 网页快照250

9.5 搜索智能提示250

9.6 网页排序254

9.6.1 基于PageRank的网页重要性评价254

9.6.2 基于Hits算法的网页权威性评价257

9.6.3 Hilltop算法259

9.6.4 网页作弊评价260

9.6.5 网页排序调试263

9.7 个性化搜索264

9.7.1 个性化搜索示例264

9.7.2 人工神经网络与个性化搜索265

9.7.3 地理位置搜索266

9.8 图片搜索271

9.8.1 基于内容的图片搜索271

9.8.2 基于文本的图片搜索272

9.9 搜索与广告274

9.9.1 广告投放策略275

9.9.2 基于User-Based协同过滤的广告投放275

9.9.3 基于Item-Based协调过滤的广告投放277

9.9.4 基于混合模式广告投放278

9.9.5 广告投放评价279

9.10 搜索引擎评价282

9.10.1 搜索评价概述282

9.10.2 基于准确率、召回率及F值评价283

9.10.3 归一化折扣累计增益285

9.11 本章小结288

第10章 基于用户日志的反馈学习290

10.1 基于用户搜索词语的分析290

10.1.1 发现搜索词的价值291

10.1.2 发现不明意图下的用户行为292

10.2 基于用户点击日志的分析293

10.2.1 时间与搜索意图的关系293

10.2.2 地理位置与搜索意图的关系294

10.2.3 点击日志与同义词296

10.2.4 点击日志与词语权重297

10.2.5 点击日志与新词分类298

10.2.6 点击日志与知识图谱300

10.2.7 点击日志与网页重排序301

10.2.8 点击日志与网页评价303

10.3 基于用户的特征分析304

10.3.1 用户跟踪305

10.3.2 用户群体特征306

10.3.3 用户个体特征308

10.4 本章小结309

如果想得到下载地址,请访问中科院计算所培训中心官网http://www.tcict.cn/添加官网上的微信客服号索取!

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值