自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

转载 常见的十大数据挖掘算法

Logistic回归 SVM 朴素贝叶斯 决策树 随机森林 GBDT KMeans KNN EM xgboost

2018-07-28 17:20:22 1238

转载 基于python的机器学习库Sklearn

这里写链接内容

2018-04-11 15:47:48 186

原创 机器学习面试题(二)

1.生成模型与判别模型的区别? 监督学习方法分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。 生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率P(Y|X)作为预测的模型,即生成模型:P(X,Y)P(X)P(X,Y)P(X)\frac{P(X,Y)}{P(X)} 这样的方法称为生成方法,因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯和隐马...

2018-03-21 23:29:43 454

转载 机器学习面试题(一)

1.监督学习与无监督学习 监督学习:对具有标记的训练样本进行学习,以尽可能地对训练样本集之外的数据进行分类预测;(LR,SVM,RF,GBDT) 无监督学习:对未标记的样本进行训练学习,以发现这些样本中的知识结构。(KMeans,DL)2.泛化能力:指模型对未知数据的预测能力3.正则化:正则化是针对过拟合而提出的,在求解模型最优的是一般化最小的经验风险,现在在该经验风险上加入模型复杂度...

2018-03-21 22:24:07 980

原创 机器学习刷题错题总结

1.ID3算法:决策树学习是一种逼近离散值目标函数的方法,学习得到的决策树可以被表示为多个if-then规则,故ID3算法不是二叉树模型。基本的ID3算法通过自顶向下构造决策树来进行学习,一般选择分类能力最好的属性来作为数的根节点,具有最高信息增益的属性认为是最好的属性。2.关键词选取的方法主要有两种:无监督的方法,利用候选关键词的统计性质,对他们进行排序,选取最高的若干个作为关键词;有监督方...

2018-03-19 23:47:04 1328 1

转载 K近邻算法(KNN)

算法原理与实现:https://www.cnblogs.com/sxron/p/5451923.html https://www.cnblogs.com/zhengxingpeng/p/6670451.html

2018-03-15 21:11:04 243

转载 支持向量机SVM

线性可分支持向量机与应间隔最大化http://blog.csdn.net/jyt1129/article/details/68070753 线性支持向量机与软间隔最大化http://blog.csdn.net/jyt1129/article/details/68484965 SMO算法:http://blog.csdn.net/luoshixian099/article/details/512...

2018-03-14 22:12:09 265

转载 随机森林算法(RandomForest)

http://blog.csdn.net/qq547276542/article/details/78304454

2018-03-14 21:37:15 407

转载 KMeans算法

http://blog.csdn.net/loveliuzz/article/details/78783773

2018-03-14 09:30:49 165

原创 数据仓库星型模型设计与ETL

根据样例数据库设计数据仓库 采用数据库——mysql 采用mysql提供的样例数据库——employees (http://dev.mysql.com/doc/index-other.html) 根据以下需求建立星型模型: 1.公司每个员工每月的薪资分别是多少? 2.哪些部门每个月开出的薪资比较高? 3.哪种职称的每月得到的薪资比较高?

2018-01-05 23:32:27 3609

原创 面试问题

早上和同学一起步行到实验室,问了一下同学昨天面试上海百度实习生的面经,同学说有这三个问题:1.cookie和session的区别 2.http协议 3.100w条记录的数据如何查询某列排行前10的值

2018-01-05 09:30:12 171

转载 决策树

http://blog.csdn.net/herosofearth/article/details/52347820 http://blog.csdn.net/herosofearth/article/details/52425952

2017-12-30 22:51:37 249

转载 LDA主题模型

http://www.360doc.com/content/16/0428/10/478627_554452907.shtml

2017-12-24 23:49:53 175

原创 求最长回文序列(pat 1040. Longest Symmetric String)

求最长回文子串问题—Manacher算法(O(n))1.对原串进行转换 求回文串时奇偶串的算法会有差异,在这里做一个简单的处理,将奇回文串和偶回文串统一考虑,在每个字符间插入一个分隔符,串的首尾也要加,一般用“#”或“$”等。 原串:papapa 新串:#p#a#p#a#p#a# 这样一来,原来奇回文串还是奇数长度,偶数长度的回文串变成以“#”为中心的奇数回文

2017-12-22 23:02:12 222

转载 贝叶斯算法

贝叶斯算法推导https://www.cnblogs.com/liuwu265/p/4685361.html 实现:朴素贝叶斯下的文本分类 http://blog.csdn.net/tanhongguang1/article/details/45016421

2017-12-13 23:05:20 381

转载 Logistic回归计算过程的推倒

Logistic回归过程推倒

2017-12-10 00:05:40 629

原创 机器学习的动机与应用

1.机器学习:在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域(Arthur Samuel 1959); 对于一个计算机程序来说,给它一个任务T和一个性能测试方法P,如果在经验E的影响下,P对T的测量结果得到了改进,那么就说程序从E中学习(Tom Mitchell 1998); 2.监督学习:给算法一组标准答案,希望算法去学习标准输入和标准答案之间的联系,以尝试对于我们的其他输

2017-12-05 10:30:33 194

原创 深度学习概论

1.修正线性单元ReLu函数 2.input layer hidden unit y 3.监督学习:给定一组数据,知道正确的输出结果是什么样子,并且知道输入和输出之间有一种特定的关系,分为回归和分类问题。 无监督学习:不知道结果是什么样子,通过聚类的方式从数据中提取一个特殊的结构。 4.RNN循环神经网络(Recurrent Neural Network) 卷积神经网络(Convo

2017-12-04 00:49:10 270

vs2013 Ultimate简体中文语言包

发现微软暂停了该语言包的下载,特此共享

2018-04-24

各种版本停用词词表集合

内含有9个停用词文档,包含各种版本的中英文停用词

2018-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除