hbhszw_yiyan-CSDN博客

转载常见的十大数据挖掘算法

Logistic回归 SVM 朴素贝叶斯决策树随机森林 GBDT KMeans KNN EM xgboost

2018-07-28 17:20:22 1241

原创机器学习面试题（二）

1.生成模型与判别模型的区别？监督学习方法分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型。生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率P(Y|X)作为预测的模型，即生成模型：P(X,Y)P(X)P(X,Y)P(X)\frac{P(X,Y)}{P(X)} 这样的方法称为生成方法，因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有：朴素贝叶斯和隐马...

2018-03-21 23:29:43 455

转载机器学习面试题（一）

1.监督学习与无监督学习监督学习：对具有标记的训练样本进行学习，以尽可能地对训练样本集之外的数据进行分类预测；（LR，SVM，RF，GBDT）无监督学习：对未标记的样本进行训练学习，以发现这些样本中的知识结构。（KMeans，DL）2.泛化能力：指模型对未知数据的预测能力3.正则化：正则化是针对过拟合而提出的，在求解模型最优的是一般化最小的经验风险，现在在该经验风险上加入模型复杂度...

2018-03-21 22:24:07 984

1.ID3算法：决策树学习是一种逼近离散值目标函数的方法，学习得到的决策树可以被表示为多个if-then规则，故ID3算法不是二叉树模型。基本的ID3算法通过自顶向下构造决策树来进行学习，一般选择分类能力最好的属性来作为数的根节点，具有最高信息增益的属性认为是最好的属性。2.关键词选取的方法主要有两种：无监督的方法，利用候选关键词的统计性质，对他们进行排序，选取最高的若干个作为关键词；有监督方...

2018-03-19 23:47:04 1332 1

转载 K近邻算法（KNN）

算法原理与实现：https://www.cnblogs.com/sxron/p/5451923.html https://www.cnblogs.com/zhengxingpeng/p/6670451.html

2018-03-15 21:11:04 246

转载支持向量机SVM

线性可分支持向量机与应间隔最大化http://blog.csdn.net/jyt1129/article/details/68070753 线性支持向量机与软间隔最大化http://blog.csdn.net/jyt1129/article/details/68484965 SMO算法：http://blog.csdn.net/luoshixian099/article/details/512...

2018-03-14 22:12:09 267

转载随机森林算法（RandomForest）

http://blog.csdn.net/qq547276542/article/details/78304454

2018-03-14 21:37:15 409

转载 KMeans算法

http://blog.csdn.net/loveliuzz/article/details/78783773

2018-03-14 09:30:49 166

原创数据仓库星型模型设计与ETL

根据样例数据库设计数据仓库采用数据库——mysql 采用mysql提供的样例数据库——employees （http://dev.mysql.com/doc/index-other.html）根据以下需求建立星型模型： 1.公司每个员工每月的薪资分别是多少？ 2.哪些部门每个月开出的薪资比较高？ 3.哪种职称的每月得到的薪资比较高？

2018-01-05 23:32:27 3612

原创面试问题

早上和同学一起步行到实验室，问了一下同学昨天面试上海百度实习生的面经，同学说有这三个问题：1.cookie和session的区别 2.http协议 3.100w条记录的数据如何查询某列排行前10的值

2018-01-05 09:30:12 175

转载决策树

http://blog.csdn.net/herosofearth/article/details/52347820 http://blog.csdn.net/herosofearth/article/details/52425952

2017-12-30 22:51:37 251

转载 LDA主题模型

http://www.360doc.com/content/16/0428/10/478627_554452907.shtml

2017-12-24 23:49:53 177

原创求最长回文序列（pat 1040. Longest Symmetric String）

求最长回文子串问题—Manacher算法（O(n)）1.对原串进行转换求回文串时奇偶串的算法会有差异，在这里做一个简单的处理，将奇回文串和偶回文串统一考虑，在每个字符间插入一个分隔符，串的首尾也要加，一般用“#”或“$”等。原串：papapa 新串：#p#a#p#a#p#a# 这样一来，原来奇回文串还是奇数长度，偶数长度的回文串变成以“#”为中心的奇数回文

2017-12-22 23:02:12 222

转载贝叶斯算法

贝叶斯算法推导https://www.cnblogs.com/liuwu265/p/4685361.html 实现：朴素贝叶斯下的文本分类 http://blog.csdn.net/tanhongguang1/article/details/45016421

2017-12-13 23:05:20 383

转载 Logistic回归计算过程的推倒

Logistic回归过程推倒

2017-12-10 00:05:40 630

原创机器学习的动机与应用

1.机器学习：在不直接针对问题进行编程的情况下，赋予计算机学习能力的一个研究领域（Arthur Samuel 1959）；对于一个计算机程序来说，给它一个任务T和一个性能测试方法P，如果在经验E的影响下，P对T的测量结果得到了改进，那么就说程序从E中学习（Tom Mitchell 1998）； 2.监督学习：给算法一组标准答案，希望算法去学习标准输入和标准答案之间的联系，以尝试对于我们的其他输

2017-12-05 10:30:33 195

原创深度学习概论

1.修正线性单元ReLu函数 2.input layer hidden unit y 3.监督学习：给定一组数据，知道正确的输出结果是什么样子，并且知道输入和输出之间有一种特定的关系，分为回归和分类问题。无监督学习：不知道结果是什么样子，通过聚类的方式从数据中提取一个特殊的结构。 4.RNN循环神经网络（Recurrent Neural Network）卷积神经网络（Convo

2017-12-04 00:49:10 273

hbhszw_yiyan的博客