动态爬虫管理平台构建与实现_kaic

 

目  录
第1章 绪论
1.1背景与意义
1.2主题网络爬虫的国内外研究现状
1.2.1主题辨别算法及平台构建
1.2.2主题爬虫系统
1.3本文的研究内容
第二章 主题网络爬虫的体系结构
2.1组成模块
2.1.1基本组成
2.1.2基本流程
2.2主题页面的分布特性
2.2.1 Hub/Authority特性
2.2.2 Linkage/Sibling Locality特性
2.2.3站点的主题特性
2.2.4隧道特性
2.3搜索策略以及链接提取
2.3.1 robots协议和相对链接的转换
2.3.2搜索策略概述
第三章 网页主题内容抽取
3.1 HTML简介
3.2网页文件解析
3.3网页去噪
3.3.1利用统计学去噪
3.4主题内容的抽取
第四章 基于实体链接的主题辨别算法
4.1实体链接简介
4.2 CN-DBpedia
4.3基于实体链接的特征抽取
4.3.1候选特征集合抽取
4.3.2常见特征抽取算法
4.3.3最终特征抽取
4.4基于朴素贝叶斯算法的分类器
第五章 基于Best-First算法的平台构建
5.1通用搜索策略
5.2常用平台构建
5.2.1基于内容评价的搜索策略
5.2.2基于链接结构评价的搜索策略
5.3基于Best-First算法的平台构建
5.3.1链接价值评估
5.3.2平台构建
第六章总结与展望
6.1总结
6.2展望
参考文献
致谢

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

开心工作室(kaic_kaic)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值