读书笔记
Zoey29
Work hard, Have fun, Make history!
展开
-
链接分析算法PageRank和HITS
链接分析算法PageRank和HITSPageRankPageRank是Google创始人提出的链接分析算法计算模型,可以说成就了Google公司。 PageRank考察网页时,不仅考虑到入链数量(指向本网页的其它网页数量),还参考了网页质量,两者结合得到更有效的网页重要性评价标准。 首先,数量上。本页面入链越多,越重要; 其次,质量上。指向本页面的页面质量越高,本页面越重要。 Pag原创 2017-09-16 08:54:54 · 2160 阅读 · 0 评论 -
搜索引擎索引
倒排索引帮助搜索引擎在海量网页中快速找到包含用户查询词的所有网页。一、基本概念 1.单词文档矩阵表达哪些文档包含哪些单词的概念模型。 而搜索引擎的索引就是实现单词文档矩阵的具体数据结构。倒排项(Posting)记载出现过某个单词的所有文档的文档列表及单词在该文档中的位置信息,包含某个单词的一系列倒排项就形成了列表结构,即该单词的倒排列表。原创 2017-09-03 17:07:15 · 1409 阅读 · 0 评论 -
回归任务偏差与方差
偏差与方差分解“偏差-方差分解”是解释学习算法泛化性能的一种重要工具。 它试图对学习算法的期望泛化错误率进行拆解。 以回归任务为例,E(f;D)泛化误差可以分解为偏差、方差、噪声之和。 偏差,度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力; 方差,度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响; 噪声,表达了在当原创 2017-09-21 10:37:40 · 1319 阅读 · 0 评论 -
Python机器学习及实践学习笔记1
简介机器学习综述机器学习隶属于人工智能研究与应用的一个分支。“图灵测试”(Turing Test),用来判断一台计算机是否达到具备人工智能的标准。 大概描述:“如果通过问答这种方式,我们已经无法区分对话那端到底是机器还是人类,那么就可以说这样的机器已经具备了人工智能。”Tom Mitchell’s Definition A program can be said to learn...原创 2018-05-28 10:31:23 · 554 阅读 · 0 评论 -
Fluent Python学习笔记1
Chapter 1 The Python Data ModelPython data model describes the API that you can use to make your own objects play well with the most idiomatic language features;The Python interpreter invokes spec...原创 2018-05-24 15:58:28 · 252 阅读 · 0 评论 -
Python机器学习及实践学习笔记3
进阶这部分简单介绍了如何通过抽取或筛选数据特征、优化模型配置,进一步提升经典模型的性能表现。已存的高效模型和程序库: 用于自然语言处理的NLTK程序包; 词向量技术Word2Vec; 能提供强大预测能力的XGBoost模型; Google发布的用于深度学习的Tensorflow框架等。模型使用技巧提升模型性能的方式: 1.预处理数据 2.控制参数训练 3.优化模型...原创 2018-06-27 14:26:39 · 295 阅读 · 0 评论