qccc_dm-CSDN博客

原创 Python2.7+Win10 安装Xgboost

安装了一个下午才装好，痛苦~~~~~在此将方法分享给大家(1)需要的软件:GitBash / MinGW / Anconda2(2)流程:首先在Git Bash中依次输入// Git 下载地址https://git-for-windows.github.io/ 1.cd target_folder //GitHub源代码存放的地方// 我是存放在 C:\User

2017-07-11 21:06:37 2008

原创 2017年蘑菇街暑期算法实习生一面+二面

中午约的视频面，大概的流程是这样：（1）先写一道算法题，再做自我介绍，面试官挑着项目问，其中问到了LR，RandomForest，GBDT这些算法，要求对他们的损失函数做一些解释（2）接着问了一下评价函数有哪些e.g:mse,准确率，查准率，F1（3）最后问了一个CTR的场景题，用什么模型，要哪些特征，怎么处理

2017-04-25 14:12:32 2209

原创寻找平面上斜率最大的点

这是滴滴算法面试时碰到的问题，在此写一下思路：给定100万个平面上的点，每个点只有2个坐标信息，记为x坐标和y坐标，在小于O（n2）的时间复杂度内求出最大的斜率。1.先对所有的点按照x坐标进行排序2.再两两比较即可找到最大斜率接下来说说为什么不用考虑其他点相连接的情况，而只需要考虑邻近的点？假设排序得到了A,B,C三点（1）A,B,C三点共线，那么Kab = Kbc = K

2017-04-19 17:09:29 3781

原创近端梯度下降proximal gradient descent

在loss function中引入L1正则项时，会遇到L1正则项的求导问题：更一般的表达形式：min f(x) + g(x)f(x):convex & smoothg(x):convex but not smooth如L1范数就是不光滑的，L1范数的二维曲线可以表示成：可以看到L1范数在x=0处是不可导的，为了解决这个问题，需要用到近端梯度求解，proximal

2017-04-18 20:56:39 10283 2

原创细说RandomForest

鉴于csdn上已经有很多优秀的博文对RandomForest做过介绍，在此重复的内容我就不再复述：如随机森林的Bootstrap，features select...主要结合原论文谈谈RandomForest的实现细节：1.out-of-bag的计算：对于每一颗树来说，大约有1/3的样本会成为这棵树的out-of-bag，随机森林可以利用这部分数据进行模型

2017-03-24 17:00:14 3193

原创 Mysql知识储备

Q：什么是事务处理？A：使用事务处理，通过确保成批的SQL操作要么完全执行，要么完全不执行，来维护数据库的完整性。（参考《SQL必知必会》）Q：什么是事务？A：事务由一条或多条SQL语句组成，每个语句相互依赖，不可分割。如果一条SQL语句执行出错，整个事务会ROLLBACK，数据库回复到执行之前的状态。Q：事务有哪些性质？A：1.原子性（Atomicity）--

2017-03-19 17:59:15 401

原创 XGBOOST，GBDT，RandomForest的比较

首先XGBOOST,GBDT,RF都是集成算法，RF是Bagging的变体，与Bagging相比，RF加入了属性扰动，而XGBOOST,GBDT属于boosting.-------------------------------------------------------------------------------------------------------------------

2017-03-19 15:02:57 9033 2

原创 Linear SVM vs Logstic Regression

Linear SVM 与 LR 的相同点：1.都是线性模型，都是分类算法，都是判别模型Linear SVM 与 LR 的不同点:1.本质上两者的区别在于loss function的不同，不同的loss function 代表了不同的假设前提例如 LR 的loss function 是对数损失，LR基于概率理论，对可能性进行建模， SVM的loss func

2017-03-19 14:23:51 385

转载 machine learning 小结

机器学习&数据挖掘笔记_16（常见面试之机器学习算法思想简单梳理）　　前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面的人才需

2016-11-29 15:48:31 1088

转载 left join & right join & inner join

sql之left join、right join、inner join的区别 left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行举例如下： ——————————————–表A记录如下：aID　　　　　aN

2016-11-21 10:34:25 329

转载请注明出处：http://blog.csdn.net/u012162613/article/details/50629115===========常见的数据预处理方法，以下通过sklearn的preprocessing模块来介绍;1. 标准化（Standardization or Mean Removal and Variance Scaling）变换后各维特征有0均值，单位方差。也叫z-sco

2016-11-21 09:42:41 742

原创 kaggle入门digits Recognizer

经典的数字识别问题，调用Knn, randforest, svm&pca这3种方法。主要利用的是sklearn库，pandas库, numpy库1.knn是是看了别人的博客，然后自己动手重复了一下，后来发现这种方法的提取数据太冗长了，后续会贴出更精炼的codefrom numpy import *import operatorimport csvdef load

2016-10-14 17:02:04 530