数据挖掘
文章平均质量分 82
m0_37758017
这个作者很懒,什么都没留下…
展开
-
KNN
KNN---最近邻,k-NearestNeighbor使用场景:可回归,可分类,对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。优点: 1.简单,易于理解,易于实现,无需估计参数,无需训练,精度高,理论成熟,既可以用来做分类也可以用来做回归; 2. 适合对稀有事件进...原创 2018-02-06 20:54:19 · 2520 阅读 · 0 评论 -
EM
learning URL 理论推导 和 优缺点 https://blog.csdn.net/zhihua_oba/article/details/73776553 http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html 其基本思想是:首先根据己经给出的观测数据,估计出模型参数的值;然后再依据上一步估计出的参数转载 2018-05-08 08:42:53 · 177 阅读 · 0 评论 -
Docker
一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源。 docker可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。应用场景 1)Web 应用的自动化打包和发布转载 2018-05-08 08:16:43 · 124 阅读 · 0 评论 -
决策树
信息论(Information theory) 对于一个变量X~p(X服从p分布),该变量的熵是描述该变量的不确定性的一个值 eg:对于一个有k个状态的离散随机变量X,有 信息增益:(information gain) g(D,A) = H(D)-H(D|A) 表示了特征A使得数据集D的分类不确定性减少的程度 信息增...转载 2018-05-07 21:01:33 · 170 阅读 · 0 评论 -
AdaBoost
理论推导URL:http://www.cnblogs.com/pinard/p/6133937.html 集成方法(Ensemble Method) = Bagging + Boosting 1)Bagging思想 通过对训练数据集进行随机采样,以重新组合成不同的数据集,利用弱学习算法对不同的新数据集进行学习,得到一系列的预测结果,对这...转载 2018-05-07 20:24:01 · 120 阅读 · 0 评论 -
Elasticsearch(二)
CURL – 简单认为是可以在命令行下访问url的一个工具 – curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。 – curl – -x 指定http请求的方法 – HEAD GET POST PUT DELETE – -d 指定要传输的数据 建立索引库 curl ...转载 2018-05-12 08:16:09 · 214 阅读 · 0 评论 -
PageRank
通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中,对网站进行排名。 **核心思想** PageRank是基于从许多优质的网页链接过来的网页,必定还是优质网页的思想建立的。其包括:链入链接数(即受欢迎的指标)、链入链接是否来自推荐度高的页面、链入链接源页面的链接数。 => 即得到页面A的PR值的计算公式 推导出转载 2018-05-10 08:29:09 · 727 阅读 · 0 评论 -
聚类算法---Kmeans,K-mediods,bisecting K-means,DBSCAN,STING
Kmeans learn URL https://blog.csdn.net/loveliuzz/article/details/78783773转载 2018-05-10 07:51:34 · 2810 阅读 · 0 评论 -
朴素贝叶斯
拉普拉斯平滑 朴素:特征条件独立 贝叶斯:基于贝叶斯定理使用场景: 文档分类,垃圾邮件分类优点: 1.生成式模型,通过计算概率来进行分类,可以用来处理多分类问题, 2.对小规模的数据表现很好,适合多分类任务,适合增量式训练,算法也比较简单 3.对缺失数据不太敏感,算法也比较简单,常...原创 2018-04-17 08:23:01 · 169 阅读 · 0 评论 -
过拟合,欠拟合,偏差,误差,正则化
欠拟合-过拟合与偏差-方差关系 过拟合 在训练数据上表现良好,在未知数据上表现差。高方差 模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,使得测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差 解决方法: 1)重新清洗数据 2)增大数据的训练量 3)采用正则化方法,正则化方法包括L0正则、L1正...翻译 2018-04-11 10:12:43 · 379 阅读 · 0 评论 -
回归算法,线性回归,logistics
回归,又称 多重回归分析 :指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法 通常Y1,Y2,…,Yi是 因变量 ,X1、X2,…,Xk是 自变量 Regression ,一种数学模型 分类: 一元线性回归模型,由大体上有线性关系的一个自变量和一个 因变量组成;模型...原创 2018-04-11 09:19:15 · 745 阅读 · 0 评论 -
随机森林
随机森林-----集成算法之一,分类,回归和特征选择算法步骤: 1.用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集 2.用抽样得到的样本集生成一棵决策树。在生成的每一个结点: 1.随机不重复地选择d个特征 2.利用这d个特征分别对样本集进行划分,找到最佳的划分特征(可用基尼系数、增益率或者信息增益判别) 3.重复步骤1到步...原创 2018-02-06 20:55:43 · 1753 阅读 · 0 评论 -
关联分析
关联分析 作用:提取出对数据中的变量之间的关系的最佳解释 基本概念: 1、事务:每一条交易称为一个事务,例如示例1中的数据集就包含四个事务。 2、项:交易的每一个物品称为一个项,例如Cola、Egg等。 3、项集:包含零个或多个项的集合叫做项集,例如{Cola, Egg, Ham}。 4、k−项集:包含k个项的项集叫做k-项集,例如{Cola}叫做1-项集,{Cola, Eg...原创 2018-02-06 20:56:52 · 1816 阅读 · 0 评论 -
马尔可夫模型(Markov Model)
https://www.cnblogs.com/fengfenggirl/p/HMM_1.html 超通熟易懂及推理!!!!!!!!!优点:该方法对过程的状态预测效果良好,可考虑用于生产现场危险状态的预测 缺点:不适宜用于系统中长期预测转载 2018-05-08 08:53:40 · 8677 阅读 · 0 评论