大数据
文章平均质量分 65
warrior_zhang
这个作者很懒,什么都没留下…
展开
-
搜索引擎之网络爬虫
1、网络爬虫结构 网络爬虫把网络分为5个部分: (1已下载网页集合:已经下载到本地的网页集合 (2已过期网页集合:随着时间的推移一些已下载网页可能已经更改或者不存在 (3待下载网页集合:存在带抓取URL队列中,即将被爬虫下载 (4可知网页集合:这些网页URL不存在待下载网原创 2016-01-12 13:00:59 · 362 阅读 · 0 评论 -
对搜索引擎的初了解发展及核心框架
1、搜索引擎的发展 (1 采取分类目录的方式 (2 以文本检索为核心的方式即搜索关键字和网页内容相关度 (3 在文本搜索的基础上加入了连接分析即网页流行度 (4 在3的基础上,改进程以用户为核心的方式即以理解用户需求为核心 2、搜索引擎的核心问题 (1用户需求即用户的搜索意图原创 2016-01-12 13:00:56 · 269 阅读 · 0 评论 -
模式识别中监督学习与非监督学习的简易理解,摘自百度
有监督学习(supervised learning)和无监督学习(unsupervised learning) 机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则原创 2014-11-24 21:16:40 · 18133 阅读 · 4 评论 -
初学者如何查阅自然语言处理(NLP)领域学术资料
初学者如何查阅自然语言处理(NLP)领域学术资料原创 2016-01-12 13:02:19 · 3313 阅读 · 0 评论