数据挖掘
文章平均质量分 54
qccc_dm
TO BE A HERO
展开
-
kaggle入门digits Recognizer
经典的数字识别问题,调用Knn, randforest, svm&pca这3种方法。 主要利用的是sklearn库,pandas库, numpy库 1.knn是是看了别人的博客,然后自己动手重复了一下,后来发现这种方法的提取数据太冗长了,后续会贴出更精炼的code from numpy import * import operator import csv def load原创 2016-10-14 17:02:04 · 477 阅读 · 0 评论 -
machine learning 小结
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需转载 2016-11-29 15:48:31 · 1042 阅读 · 0 评论 -
常见的数据预处理方法
转载请注明出处:http://blog.csdn.net/u012162613/article/details/50629115===========常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-sco转载 2016-11-21 09:42:41 · 686 阅读 · 0 评论 -
left join & right join & inner join
sql之left join、right join、inner join的区别 left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录inner join(等值连接) 只返回两个表中联结字段相等的行 举例如下: ——————————————–表A记录如下:aID aN转载 2016-11-21 10:34:25 · 291 阅读 · 0 评论 -
Linear SVM vs Logstic Regression
Linear SVM 与 LR 的相同点: 1.都是线性模型,都是分类算法,都是判别模型 Linear SVM 与 LR 的不同点: 1.本质上两者的区别在于loss function的不同,不同的loss function 代表了不同的假设前提 例如 LR 的loss function 是 对数损失,LR基于概率理论,对可能性进行建模, SVM的loss func原创 2017-03-19 14:23:51 · 337 阅读 · 0 评论 -
寻找平面上斜率最大的点
这是滴滴算法面试时碰到的问题,在此写一下思路: 给定100万个平面上的点,每个点只有2个坐标信息,记为x坐标和y坐标,在小于O(n2)的时间复杂度内求出最大的斜率。 1.先对所有的点按照x坐标进行排序 2.再两两比较即可找到最大斜率 接下来说说为什么不用考虑其他点相连接的情况,而只需要考虑邻近的点? 假设排序得到了A,B,C三点 (1)A,B,C三点共线,那么Kab = Kbc = K原创 2017-04-19 17:09:29 · 3608 阅读 · 0 评论 -
2017年蘑菇街暑期算法实习生一面+二面
中午约的视频面,大概的流程是这样: (1)先写一道算法题,再做自我介绍,面试官挑着项目问,其中问到了LR,RandomForest,GBDT这些算法,要求对他们的损失函数做一些解释 (2)接着问了一下评价函数有哪些e.g:mse,准确率,查准率,F1 (3)最后问了一个CTR的场景题,用什么模型,要哪些特征,怎么处理原创 2017-04-25 14:12:32 · 2108 阅读 · 0 评论