![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
chenlongzhen_tech
[声明] 此账号不在更新,请关注 http://blog.csdn.net/tech_chenlongzhen
展开
-
LAR(最小角回归)
LAR(最小角回归)chenlongzhenSunday, March 01, 2015LAR过程LAR图解R的lar包使用longley数据(具有高度共线性)用最小角度算最小二乘解,确定变量过程library(lars)## Warning: package 'lars' was built under R ve转载 2015-03-14 23:24:38 · 5036 阅读 · 0 评论 -
R语言13行代码实现神经网络
参考自11行python x <- data.frame(c(0,0,1),c(0,1,1),c(1,0,1),c(1,1,1)) y <- c(0,1,1,0) x <- as.matrix(t(x)) col <- ncol(x) syn0 <- matrix(rnorm(numberofUnits * col ),ncol=col,nrow=numberofUnits)原创 2015-08-22 16:44:05 · 5308 阅读 · 0 评论 -
svm tips
tips转载 2015-08-12 13:51:28 · 322 阅读 · 0 评论 -
Clustering Tips
无监督学习算法之一K-meansK-mean for non_separated clusters如何避开局部最优 4.1 随机初始化 例如100次计算kmeans 选取cost最少的如何选择聚类的数目 5.1 Elbow method 肘部法则 画不同的k类聚类后的cost图 5.2 根据目的来确定类别原创 2015-08-13 16:40:56 · 525 阅读 · 0 评论 -
PCA Tips
PCA steps数据归一化算协方差对协方差矩阵进行svd, 得到特征向量, 若降到k为就选取前k个特征向量特征向量(n*k)的转置, 乘 样本(n*1)降维后的样本将pca 降维后的数据重塑回原维度维度k选择应用建议!在做有监督学习时, 只对训练集合降维。 pca不适用于解决过拟合!用正则化使用pca前,先用原始测试,若收敛慢占内存,效果不好时再pca,原创 2015-08-14 17:15:33 · 401 阅读 · 0 评论 -
异常检测 Tips
https://www.coursera.org/learn/machine-learning/home/week/9异常检测?算法过程拟合P(x)的例子(假设每个样本独立)如果有两个特征,均值方差为,μ=(5,3),\sigema=(2,1)\mu=(5,3),\sigema=(2,1)每个特征的正太密度曲线为 将两个特征的密度函数相乘得到:用这个分布函数可以计算出每个点的概率: 建立一个异常原创 2015-08-16 13:22:40 · 671 阅读 · 0 评论 -
机器学习 回归notes
xx原创 2015-09-09 15:25:29 · 322 阅读 · 0 评论 -
recommender systems
基于内容的推荐系统为每个电影的类别标注(romance or action) ,转化为一个回归问题对每个电影的θ\theta做回归, cost为所有回归函数的cost和基本的协同过滤conten模式中是用的的矩阵θ\theta未知的回归问题, 这里我们电影的类型矩阵xx也是未知的,对于这两个参数都未知的情况下的解决方法是不断循环求解二者的参数协同过滤实现原创 2015-08-20 18:14:57 · 446 阅读 · 0 评论 -
LargeDatasets Tips
随机梯度下降首先将样本打乱对每个样本单独计算梯度 小批量梯度下降mini-batch gradient decent原创 2015-08-21 15:36:34 · 456 阅读 · 0 评论 -
聚类:dbscan,密度最大值
dbscan密度聚类原创 2015-09-14 10:55:08 · 1303 阅读 · 0 评论 -
决策树
http://www.cnblogs.com/bourneli/archive/2013/03/15/2961568.html转载 2015-09-17 09:21:33 · 381 阅读 · 0 评论 -
K-fold 交叉验证
http://blog.sina.com.cn/s/blog_688077cf0100zqpj.html转载 2015-10-08 09:09:33 · 2019 阅读 · 0 评论 -
PLA code
感知机参考自机器学习基石# /usr/bin/env python2.7# encoding=utf-8import numpy as npimport random,osdef verify(weight,array_x,array_y): ''' verify prediction :param weight: itered weight :param a原创 2015-11-07 17:54:27 · 479 阅读 · 0 评论 -
逻辑回归推导
参考网址: 《PRML》Logistic回归(逻辑回归,LR)的推导 代码: python逻辑回归代码原创 2016-04-22 11:00:14 · 697 阅读 · 0 评论 -
机器学习笔记c8主成分分析(日期格式转换,cast)
主成分分析原理读取数据library('ggplot2')# First code snippetprices <- read.csv(file.path('data', 'stock_prices.csv'), stringsAsFactors = FALSE)prices[1, ]# Date Stock Close#1 2011-05-25 DTE原创 2015-04-14 19:15:18 · 1102 阅读 · 0 评论 -
机器学习c12笔记:SVM学习与SVM,逻辑回归和kNN比较
SVM摘自百度百科 参考书籍:机器学习实用案例解析SVM原理SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题.简单地说,就是升维和线性化.升维,就是把样本向高维空间做映射,一般情况下这会增加计算的复杂性,甚至会引起“维数灾难”,因而人们很少问津.但是作为分类、回归等问题来原创 2015-04-18 15:50:13 · 10144 阅读 · 0 评论 -
ML4因子分析笔记
因子分析by chenlongzhen from dataguru因子分析简介降维的一种方法,是主成分分析的推广和发展是用于分析隐藏在表面现象背后的因子作用的统计模型。试图用最少个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量例子:各科学习成绩(数学能力,语言能力,运劢能力等)例子:生活满意度(工作满意度,家庭满意度)例子:薛毅书P522因子分析的主要用途减少分原创 2015-03-15 14:36:03 · 756 阅读 · 0 评论 -
SVM&nnet使用代码笔记
results<-data.frame(matrix(0,ncol=96*2,nrow=length(testseq))) for(col in 1:96) { train<-data_reshape[[col]][trainseq,] test<-data_reshape[[col]][testseq,] model<-svm(X7~.,train) pre<转载 2015-03-26 13:40:57 · 667 阅读 · 0 评论 -
r语言kmeans聚类博客转载
http://www.cnblogs.com/bourneli/p/3645049.html转载 2015-04-16 21:24:38 · 1256 阅读 · 0 评论 -
机器学习案例解析第一章笔记(ggplot,ggsave,merge,gsub,as.Date,read.*)
read.*read.*默认会把字符串转换成factor类型. 我们需要使用stringAsFactors=FALSE 来防止转换. ex:ufo <- read.delim(file.path("./ufo_awesome.tsv"), sep = "\t", stringsAsFactors = FALSE,转载 2015-03-29 22:56:06 · 4320 阅读 · 1 评论 -
ML5分类
0. 大数据解决办法机器学习算法不区分行业区分不同的应用场景不同数据量会花费不同的时间涉及到复杂度问题随着数据的增长而增长真的有必要计算几百亿数据量的数据么?抽样也可以解决,差距也不会很大有些地方能抽样抽样很技术hadoop/Mahoutex, 减少精度:社交网络完全子图降低度,提高计算速度.1. 分类的意义有一个学习集,确定判别函数,训练集判别.分类与聚类区别 分类有学习原创 2015-03-16 20:21:01 · 1032 阅读 · 0 评论 -
机器学习C6笔记:正则化文本回归(交叉验证,正则化,lasso)
非线性模型广义加性模型Generalized Additive Model (GAM)同过使用ggplot2程序包中的geom_smooth函数,使用默认的smooth函数,就可以拟合GAM模型:set.seed(1)x <- seq(-10, 10, by = 0.01)y <- 1 - x ^ 2 + rnorm(length(x), 0, 5)ggplot(data.frame(X = x,转载 2015-04-12 18:52:52 · 10535 阅读 · 2 评论 -
机器学习C3分类:垃圾过滤(tm包文本挖掘,朴素贝叶斯算法的垃圾邮件分类处理等)
机器学习笔记 教材为:机器学习:实用案例解析 代码: github链接 本文代码有微小修改1. bayes 垃圾分类器1.1加载路径共有三类邮件: 1. 易识别的正常邮件:easy_ham. 2. 不易识别的正常邮件:hard_ham. 3. 垃圾邮件:spam.# Load librarieslibrary('tm')library('ggplot2')# Set the glob转载 2015-03-31 08:32:15 · 4034 阅读 · 2 评论 -
机器学习C2数据分析Exploration(ggplot2)
数据分析分析与验证数据处理的方法:分析与验证分析:摘要表,基本可视化方法从数据中寻找隐含模式.验证: 若在新的数据集上发现了模式,就用另一批数据来测试这个模式的正规模型(交叉验证).利用概率论来测试你原始数据集中发现是否只是巧合(假设检验).什么是数据数据集: 充满数字和字符串的大表,表中每一行表示单个单侧数据,每一列是观测记录的一个属性.摘要统计和降维: 是两个截然不同的方向: 摘要转载 2015-03-30 20:46:15 · 1044 阅读 · 0 评论 -
机器学习C4笔记:Rank排序:智能收件箱
邮件优先级特征可以参考Google的论文: The learning Behind Gmail Priority Inbox. 主要特征包括:社交特征(social feature): 基于收件人和发件人之间的交互程度,比如某个发件人的邮件被收件人阅读过的百分比.内容特征(content): 用于识别和收件人对邮件采取行为与否高度相关的最近特征词的头部信息. 线程特征(thread fea转载 2015-04-07 22:08:36 · 1518 阅读 · 4 评论 -
机器学习C9笔记:MDS聚类可视化
MDS简介MDS是一个统计技术集合,用于可视化地描述距离集合中的相似性和差异性.对于经典的MDS的处理过程包括:输入一个包含数据集中任意两个数据点之间距离的距离矩阵,返回一个坐标集合,这个集合可以近似反应每对数据点之间的距离.之所以说是近似反应,是因为在二维空间中很可能不存在被一组距离分开的点集. 例如: 3个彼此之间距离都是1的点,是一个等边三角形的顶点.因此,不可能另外一个点到这个三角形的三个顶原创 2015-04-16 21:14:46 · 5220 阅读 · 0 评论 -
Deep Learning 深度学习笔记1(基础知识)
参考: 1. Andrew Ng, Sparse autoencoder (Lecture notes) 2.tornadomeet的博客,大部分从此博客摘录[http://www.cnblogs.com/tornadomeet/archive/2013/03/14/2959138.html]基础知识1术语Model representation: 其实就是指学习到的函数的表达形式,可以用矩转载 2015-04-09 10:51:00 · 1276 阅读 · 0 评论 -
R语言中的机器学习包
Machine Learning & Statistical Learning (机器学习 & 统计学习) 网址:http://cran.r-project.org/web/views/MachineLearning.html维护人员:Torsten Hothorn 版本:2008-02-18 18:19:21 翻译:R-fox, 2008-03-18 机器学习是计算机科学和统计学的边缘转载 2015-04-16 21:40:54 · 1716 阅读 · 0 评论 -
机器学习C10笔记: kNN推荐系统
KNN简介来自百度百科 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依原创 2015-04-18 14:35:58 · 5457 阅读 · 1 评论 -
knn python
KNN简介来自百度百科 以及 mlapp 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法原创 2016-04-23 15:20:17 · 907 阅读 · 0 评论