![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
分布式数据管理
这个作者很懒,什么都没留下…
展开
-
机器学习算法之线性回归(Linear Regression)
Linear Regression(线性回归)机器学习按算法任务执行学习任务的方式分主要有:有监督学习、半监督学习、无监督学习、增强学习和最近有国外提出的自监督学习等。其中,分类问题、回归问题、标注问题都属于有监督学习领域的任务。线性回归属于回归问题的一个方面。线性回归线性回归的任务是在输入变量与输出变量之间建立一个最高次数为1次的函数映射关系(不能只有0次),这是一种线性的函数关系,在二维坐标系中原创 2017-06-30 22:50:46 · 792 阅读 · 0 评论 -
信息检索导论(第一章) 布尔检索
第一章 布尔检索信息检索(IR):是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程,其中根据用户需求进行的文本聚类,分类也属于信息检索的范畴;传统线性扫描的检索方式弊端:大规模数据集背景下的检索性能可能较低;不能满足更灵活的信息匹配要求;不能对满足匹配的文件进行排序得到最佳列表;非线性扫描:构建文档关联矩阵,事先记录每篇文原创 2017-07-20 11:17:11 · 1336 阅读 · 0 评论 -
MIT《计算机科学数学》Introduction & Chaper01-Proofs
证明(proof):是解决在计算机科学所遇到的问题时所使用的重要方法,问题的作者通过数学证明来与其他数学家对问题进一步讨论,获取进一步理解;对于一个推论的数学证明,是一种基于一定的公理事实,经过一段链式逻辑证明后得到一个新的命题的过程;命题(Propositions):命题是一种事实的陈述,包括正确和错误两种状态;谓词(Predicates):谓词可以理解成一种逻辑值的真假需要由一个或原创 2017-07-20 16:21:27 · 635 阅读 · 0 评论 -
MIT《计算机科学数学》Chaper02-The Well Ordering Principle
良序定理(The Well Ordering Principle):每一个非空的非负整数集合都存在一个最小值;良序证明模式:证明“P(n) is true for all n∈N”;1 定义集合C,C的元素为所有使得P的反例为true的所有n的集合;2 假设C非空,通过反证来说明命题错误;3 通过良序定理说明在集合C中存在一个最小的元素;4 通过某种方式达到一个矛盾:P(n)为原创 2017-07-26 20:49:37 · 1680 阅读 · 0 评论 -
论文:Bradley P S, Bennett K P, Demiriz A. Constrained K-Means Clustering[J]. 2000, 59(1):1–34.笔记
最近在研究平衡聚类方面的问题,做了些调研,最早研究这方面是2000年实验效果在两组实际数据集上测试(简写为I与W),其中I数据集包括351个包括33维的数据点,同时每一个维度的值进行标准化处理;W数据集包括683个包括9维的数据点上图表示,分别对数据集I和W使用K-Means进行聚类,对于使用不同K的聚类结果而言(10,20,50),随着τ的上升,聚类结果中簇的数据点总数小于τ的簇数目趋势;上图表示原创 2017-09-15 11:32:57 · 1207 阅读 · 1 评论 -
论文:Banerjee A, Ghosh J. On Scaling Up Balanced Clustering Algorithms.[C]笔记
实验描述:算法在2个数据集上进行测试,分别是20-newsgroups dataset和Yahoo news dataset,其中20-newsgroups dataset包含20000条文本记录,每条记录通过26099个维度进行存储;Yahoo news dataset包含2340条记录,每条记录通过21839个维度进行存储;上图表示,(a)与(b)分别表示在两个数据集上的目标函数值与error原创 2017-09-15 22:12:27 · 404 阅读 · 0 评论 -
逻辑斯谛回归(Logistic regression)—《统计学习方法》
逻辑斯谛回归(Logistic regression)是统计学习领域的一个经典分类方法,学习李航教授的《统计学习方法》将笔记和一些感悟记录下来;1 逻辑斯谛分布(logistic distribution) 为一个连续型的随机变量,分布函数F和密度函数f满足下列条件的分布为逻辑斯谛分布: F(值域0到1)与f的图像: F为中心对称图形并且在中心点附近图像很陡;2 二项逻辑斯谛分原创 2017-10-16 10:34:02 · 2886 阅读 · 1 评论 -
最小二乘法
## Least squares 最小二乘法import numpy as npimport scipy as spimport matplotlib.pyplot as pltfrom scipy.optimize import leastsq'''给出样本数据'''X = np.array([6.19,2.51,7.29,7.01,5.7,2.66,3.98,2.5,9.1,4.2转载 2017-12-21 15:04:40 · 311 阅读 · 0 评论 -
数据缺失值处理
数据缺失值处理方法① 删除缺失值 改变了样本原始的数据分布,在缺失值过多的情况下不宜采用② 均值填补法 若缺少的属性是数值型,则将其他数据对象该属性的值取平均后填入;若缺少的属性是非数值型,则根据众数原理将其他数据对象中该属性出现最多的值填入; (对均值不会有太大影响,但是方差与标准差会变小)③ 热卡填充法 对于一个包含缺失值的变量,热卡填充法的做法是:在数据库中找到一个与它最相似的对原创 2018-01-01 10:52:19 · 2836 阅读 · 0 评论