读书笔记
文章平均质量分 79
闲不下来的王小C
闲不下来,只是闲不下来
展开
-
论文阅读-2004-jeffrey-mapreduce
1. Research Objective实现一个基于普通主机集群的高可扩展性的分布式编程框架,使用者不需要去考虑计算的并行,系统的容错,数据的分发,负载平衡等问题,专注于业务本身。2. Programming model计算任务的输入是一个键值对的集,输出是另一个键值对的集,用户将将计算任务抽象成map和reduce两个阶段。map阶段,map函数接受一个键值对的输入,输出键值对的集合作为中间结果,mapreduce库负责将所有具有相同键的值进行聚合,reduce阶段的输入reduce阶段,re原创 2021-05-05 16:29:04 · 276 阅读 · 0 评论 -
论文阅读-Hoogeveen_1991_OR-Letters
作者年份近似比Hoogeveen199153\frac{5}{3}35An, Kleinberg, Shmoys20121+52\frac{1+\sqrt{5}}{2}21+5Sebo201385\frac{8}{5}58Rico Zenklusen20191.5Title: Analysis of Christofides’ ...原创 2019-12-12 15:49:20 · 546 阅读 · 0 评论 -
论文阅读-Click Chain Model in Web Search
论文出处: WWW 2009论文作者: Fan Guo, Chao Liu, Christos Faloutsos等概括能够增量计算的基于Bayes的click model, 核心是Bayes公式中的"证据"函数的计算, 以及模型中用户行为相关的参数的估计.模型发展 cascade model - DCM&UCM - CCMIntroductionclick model提供了一...原创 2019-12-08 17:00:03 · 307 阅读 · 0 评论 -
论文阅读-2020ICRL-Neural execution of graph algorithms
概括使用GNN训练除能够用于多个图算法的算法执行器, 证明了GNN在图结构的输入上的强大表示能力.将传统图算法(BFS, Bell-Ford, Prim)中算法执行的每一步的决策作为标签,上一步决策后的图信息作为输入, 预测算法在当前时间步的决策, 网络最终能够学习到传统算法的选择策略.文章的动机: 目标是增强GNN的更新规则中的算法可解释性, 增强这种归纳性的认知。这种认知对于例如发现新颖...原创 2019-12-01 10:50:02 · 645 阅读 · 0 评论 -
正则表达式快速笔记
元字符速查技术点懒惰匹配在+,*后加上?构成懒惰匹配, 总是在匹配到第一个符合项时停止位置匹配单词边界: 为了匹配完整单词, 使用\b在单词的前后进行限制, \b的含义是一个非单词字符和一个单词字符(字母数字下划线)的边界, \B取反字符串边界: 用^和$表示字符串的开始位置与结束位置. 有的正则表达式实现支持通过(?m)特殊字符实现按行匹配, 通过该特殊字符使得$以换行符为结...原创 2019-04-18 16:21:09 · 208 阅读 · 0 评论 -
c++的列表初始化问题
要初始化一个整型数组为0的时候, 我们通常可以这样写int num[100] {0};但是初始化这个整型数组为其他值的时候, 是否能这样写呢?int num[100] {1};printf打印下结果会发现是不可行的, 只有num[0]被初始化为1, 其他元素均为0.那么 为什么写0的时候就是对的呢?原因是因为对于列表初始化而言, 当列表中的元素少于数组元素的时候, 编译器会将后面的...原创 2018-12-01 13:41:41 · 189 阅读 · 0 评论 -
机器学习实战读书笔记(4)--logistic回归
Logistic回归假设我们有一些数据点,用一条直线对这些点进行拟合,这个拟合的过程成为回归.在计量经济学中我们大量的使用过线性回归,线性回归的模型试图得到一个通过属性的线性组合来进行预测的函数,即 f(x)=WTX+bf(x)=WTX+bf(x)=W^TX+b 式中的W和b通过学习获得,模型就被标定了.而logistic回归的思想是,回归的结果不是一个实值,而是一个二分类的概率.这个变量...原创 2018-07-25 21:27:10 · 200 阅读 · 0 评论 -
机器学习实战读书笔记(3)--朴素贝叶斯
基于贝叶斯决策理论的分类方法 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对输入数据的准备方式比较敏感,需要标称数据.确定贝叶斯最优假设的计算代价较大朴素贝叶斯是贝叶斯决策理论的一部分.贝叶斯决策理论的核心思想:一个数据集包括2类(或两类以上)数据,这些数据有一些维度,如果已知一个数据的特征,由该特征得到其属于第一类的可能性p1(x,y)p1(x,y)p1(...原创 2018-07-25 21:20:53 · 173 阅读 · 0 评论 -
数学之美读书笔记(1)
第二章我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做一次编码,编码的结果就是一串文字。而如果对方懂得这门语言,他或她就可以用这门语言的解码方式获得说话人要表达的意思。这就语言的数学本质。 【语言的本质是信息载体,不同的语言是对同一种意思的不同编码方式,这个解释是自然语言的理解和语言之间的翻译基石】图灵测试:让人和机器进行交流,如果人无法判断...原创 2018-07-12 10:27:21 · 647 阅读 · 2 评论 -
数学之美读书笔记(2)
谈谈分词分词方法,最容易想到的就是查字典,即从左到右把句子扫描一遍,遇到字典里有的词,就标识出来,遇到复合词就找最长的词匹配。这个方法可以解决七八成的问题,但是还是过于单薄。之后提出的用统计语言模型进行分词的方法,效果上好的多。对于给定的一个句子,有若干中分词方法,A1,A2,A3..An, B1,B2,B3…Bn, C1,C2,C3…Cn,只要利用统计语言模型比较哪种分词方案形成的句子出...原创 2018-07-17 20:00:15 · 134 阅读 · 0 评论 -
机器学习实战读书笔记(2)--决策树
决策树决策树的一个重要任务是为了数据中所蕴含的知识信息,因此决策树可以使用一系列不熟悉的数据集合,并从中提取系列规则,在这些机器根据数据集创建规则时,就是机器学习的过程.专家系统中经常使用决策树决策树的构造 优点:计算复杂度不高,输出结果易于理解,对中间值缺失不敏感,可以处理不相关特征数据 缺点:可能会产生过度匹配的问题(overfit) 适用数据类型:数值...原创 2018-07-17 19:56:32 · 704 阅读 · 0 评论 -
机器学习实战读书笔记(1)--k邻近算法
kNN算法kNN算法概述kNN算法和kmeans算法的比较knn工作原理: 存在一个样本数据集合(训练样本集),并且每个样本都具有标签,输入新的样本后,我们将样本的特征与训练样本集中的数据特征比较,算法提取特征最相似的k个样本的标签,采用少数服从多数的形式,认为新样本的标签就是最相似的k个样本中的主要标签.def classify0(inX,dataSet,label...原创 2018-07-17 19:45:21 · 214 阅读 · 0 评论