机器学习
forest小拳拳
这个作者很懒,什么都没留下…
展开
-
数据挖掘-Apriori算法(1)
(此为第一部分,先保存至线上。。。。)apriori算法为数据挖掘与机器学习的基础算法之一,它能有效挖掘出关联规则,并求出各维频繁项集。此算法现在只求出一维频繁项集,之后继续实现#include#include#include#include#include#include#includeusing namespace std;//用同一种结构体去表示之后的每一个频繁项集原创 2017-11-16 17:12:32 · 216 阅读 · 0 评论 -
logistic回归的多分类任务实现------鸢尾花数据(DATA MINING HOMEWORK)
鸢尾花问题:http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data对于以上给出的数据集,用模型进行训练,得到良好的分类器,分类模型。(要求用线性回归模型)初看数据可以知道大概这么几个信息:首先数据是四维的,类别是三类,是一个多分类问题。因为题目要求用线性模型做,能想到的分类方式大概就是最朴素的线性回...原创 2019-02-26 14:23:34 · 1719 阅读 · 0 评论 -
hierarchal cluster (层次聚类,single/complete linkage)
看网上似乎没有层次聚类关于single/comlplete linkage只用numpy的轮子,于是根据作业需求造了一个。虽然都是层次聚类,但是基于single/comlplete linkage的和average linkage的着实不太一样。首先从直观角度来讲,后者每一次合并后都得重新算一次新的簇的中心结点是什么,复杂度非常高。而前者只考虑初始叶结点之间的距离作为最终所有簇间距的评估标准。...原创 2019-04-27 10:19:48 · 1791 阅读 · 0 评论 -
对二分类问题,4维特征数据的bagging(logstics的bagging)
这次的任务是在用logstic单一分类器的基础上,用bagging进行训练,看看有没有提升。首先对bagging做一些介绍:bagging主要是对样本进行重复放回的采样,对每一重采样都得到一个模型,最后取平均参数(或者进行投票)产生最后的分类器。其实从重采样就能感受到bagging实际上是在为减少variance做努力。首先每一次采样的子模型都不可能是完全互相独立的,也不可能是完全相同的。...原创 2019-04-18 12:43:12 · 861 阅读 · 0 评论 -
hierarchal cluster (层次聚类,complete linkage)
上一篇博客介绍了single linkage是让所有簇的距离为簇间结点最短的距离,同时每一次合并所有簇间距中最短的那一个。而complete则是让簇间结点距离最长的作为簇间距,并且每一次让所有簇间距最短两簇进行合并,因此实际上不是都找最长,而是最长最短。因此对于基于上一篇的实现方式,complete linkage则需要在每一次循环中维护一个存储以簇间最长距离而作为簇间距的字典,同时字典的...原创 2019-05-01 11:51:55 · 4025 阅读 · 0 评论 -
Kaggle比赛----LANL Earthquake Prediction(Baseline)
第一次较完整地kaggle比赛接近尾声,LANL Earthquake Prediction,先做一篇类似于baseline的东西吧,由于自己看为主,所以简单的一些代码不会全部写出来,主要作为一个思路。比赛地址为:https://www.kaggle.com/c/LANL-Earthquake-Prediction题目介绍:In this competition, you will add...原创 2019-05-31 14:11:25 · 795 阅读 · 0 评论