机器学习笔记
文章平均质量分 76
Kelisita
别再抱怨东西太难,只是自己不会,仅此而已
展开
-
4.2号 阿里实习图像算法岗面经(一面,已挂,HC满了)
由于简历里写了自己相对于目标检测,计算机视觉方向了解的多一些,所以基本上没有问传统的ML算法,一共面了23分钟,基本上就凉了。 DL方面(15分钟) 1.介绍一下faster rcnn 这里我是顺着从rcnn开始一把梭说到fatser rcnn的 2.fatser rcnn是怎么进行feature map选取的 3.fatser rcnn 里的 anchor 有什么用,怎么进行不同的bo...原创 2018-04-03 14:30:44 · 6555 阅读 · 2 评论 -
py2.7 《集体智慧编程》chapter3:发现群组
数据聚类:目的并不是通过输入和期望输出来调整算法,而是采集数据。且常用方法是定义一组公共的数值型属性,利用这些属性进行比较。一、对博客用户进行分类:数据集地址:原创 2017-04-25 10:51:09 · 410 阅读 · 0 评论 -
Python3实现BP神经网络
主要是实现了这位大佬的代码,顺便加了一些自己的理解http://www.cnblogs.com/Finley/p/5946000.htmlimport mathimport randomrandom.seed(0)def rand(a,b): #随机函数 return (b-a)*random.random()+adef make_matrix(m,n,fill=0.0):#原创 2017-05-04 14:47:19 · 9052 阅读 · 4 评论 -
关乎《机器学习实战》这本书基本刷完后的一些看法以及合集
从头到尾都是撸板子,或多或少的增加了一些理解花了四个月的时间,一点点的补完了这本书,才发现就算是实战书,也不是一本就可以加深印象的机器学习这个方向,也不单单的是一遍就能搞定的东西,理论在过了CS229发现果然还是应该重复重复重复的看下去这本书涉及API的之后的就没实战了,因为开了ss发现也爬不到东西下一本书准备刷《集体智慧编程》,顺便可以补一下《MLAPP》,周老师是《机器学习》讲原创 2017-04-05 19:30:21 · 6459 阅读 · 3 评论 -
py2.7《机器学习实战》使用FP-growth算法高效发现频繁项集
1、前言:在我们使用搜索引擎时,每当打出一些关键字,搜索引擎就会给我们自动补全推荐一些有关搜索,使用的就是FP-growth2、FP-growth 与 Apriori 的对比 :只需要对数据库扫描两次,而Apriori会对每个潜在的频繁项集都会扫描数据集判断给定模式是否频繁,所以前者的速度更快,但是前者并不能发现关联规则原创 2017-04-03 00:08:11 · 1099 阅读 · 0 评论 -
py2.7 《集体智慧编程》chapter2:提供推荐
一、搜集偏好(构造数据集):#使用字典嵌套构造数据集:一个涉及影评者及其对几部影片评分情况的字典critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5,原创 2017-04-06 10:40:10 · 513 阅读 · 0 评论 -
py2.7《机器学习实战》利用SVD简化数据
一、SVD的应用1.LSI,LSA2.推荐系统SVD的本质就是分解矩阵,将分解后的矩阵有效部分提取再结合为新矩阵二、Python实现SVD#-*- coding:utf-8 -*-def loadData(): return [[1,1,1,0,0], [2,2,2,0,0], [1,1,1,0,0],原创 2017-03-25 20:49:42 · 900 阅读 · 0 评论 -
py2.7 : 《机器学习实战》 Adaboost 2.24号:ROC曲线的绘制和AUC计算函数
前言:可以将不同的分类器组合,这种组合结果被称为集成方法 、 元算法使用:1.不同算法的集成 2.同一算法下的不同设置集成 3.不同部分分配给不同分类器的集成算法介绍:AdaBoost优点:泛华错误率低,易编码,可以应用在大部分的分类器上,无参数调整缺点:对离群点敏感(离群点是指一个时间序列中,远离序列的一般水平的极端大值和极端小值)运用数据类型:数值型或者标称型数据原创 2017-02-21 17:17:13 · 3191 阅读 · 1 评论 -
py2.7《机器学习实战》利用PCA来简化数据
最近看了PCA降维,很多地方还是不理解,还是线代学的太差了,但是书上总结的还是挺精简的一、在Numpy中实现PCA1、伪代码:(1)去除平均值(2)计算协方差矩阵(3)计算协方差矩阵的特征值和特征向量(利用Numpy中的linalg方法)(4)将特征值从大到小排序(5)保留最上面的N个特征向量(6)将数据转换到上述N个特征构建的新空间中原创 2017-03-24 17:57:00 · 759 阅读 · 0 评论 -
概率统计与机器学习:极大后验概率以及正则化项
先验概率概念:本质上就是古典概型,是利用当前状态对求解状态的一种概率估计,可以理解为“由 因求果”中“因”出现的概率。条件: (1)实验所有的可能结果是有限的; (2) 每一种出现的结果的概率是等可能的举例:假设有一个根据身高H和衣服颜色饱和度S两个参数的模型来估计一个人是男的还是女的性别识别系统 模型:y=w1∗H+w2∗S+by = w_{1}*H + w_{2}*S+b,原创 2017-07-24 23:53:06 · 3148 阅读 · 3 评论 -
概率统计与机器学习:常见分布性质总结
常见分布正态分布来源:中心极限定理 定义:大量独立的随机变量之和趋向于正态分布(高斯分布)前提:样本之间相互独立公式:p(x)=12π√σexp(−(x−μ)22σ2) p(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp (- \frac{(x-\mu )^{2}}{2\sigma ^{2}}) 图示: 可以看出期望 μ\mu 代表了正态分布的偏移量(位置);原创 2017-07-10 16:05:39 · 7292 阅读 · 0 评论 -
概率统计与机器学习:期望,方差,数学期望,样本均值,样本方差之间的区别
1.样本均值:我们有n个样本,每个样本的观测值为Xi,那么样本均值指的是 1/n * ∑x(i),求n个观测值的平均值2.数学期望:就是样本均值,是随机变量,即样本数其实并不是确定的 PS:从概率论的角度而言:样本指的是我们现在有多少东西需要去观测,它是一种随机变量,即样本的多少是不确定 的,...原创 2017-07-09 14:21:27 · 59934 阅读 · 9 评论 -
常用目标检测算法loss总结(持续更新)
R-cnn,Fast Rcnn输入层设置特征输入分别输出到两个并行的全连接层,即传统意义上的,分类+回归cls_score层:分类层,输出K+1维的数组,pipip_{i} 表示是分类还是背景的概率bbox_predict层: 候选框需要调整层,输出4*K维数组,表示属于第K类时应该缩放平移的参数Loss fuctionloss_cls : 对分类进行评估,采用真实...原创 2018-04-16 10:16:21 · 11751 阅读 · 2 评论 -
Tiny-SSD : 使用Squeeze-Net 替换 VGG-16
前言:这个作者的思路没什么,改了个网络而已,但是没想到他里面的参数只是随便写的,并不是完全成立,而如果将这些参数设计成SSD 中VGG16的,则可以正确的编译(内心可以说各种草泥马了),把网络留在这里,可以直接替换VGG16部分。最近准备使用kitti数据集进行测试和yolo V3比较# coding=utf-8"""Keras implementation of SSD."""impo..原创 2018-04-08 21:34:01 · 3195 阅读 · 2 评论 -
LightGBM官方中文文档上线啦!
有幸可以参与这次文档的翻译工作,下一次参与翻译的应该就是N久没有更新的Pytorch中文文档啦!走过路过的大佬请点个star让我以后好装逼,谢谢各位了,Orz主页地址:http://lightgbm.apachecn.org/cn/latest/index.htmlGithub:https://github.com/apachecn/lightgbm-doc-zh请点进Github帮忙点个star,原创 2018-01-04 16:49:23 · 53810 阅读 · 6 评论 -
精读深度学习算法源码系列(一):keras实现SSD源码:ssd_box_encode_decode_utils
算法原文:SSD: Single Shot MultiBox Detector github链接:https://github.com/pierluigiferrari/ssd_keras#overview以ssd7作为主程序一共如下几类:train_ssd7keras_ssd7keras_ssd_lossssd_box_encode_decode_utilsssd_batch_gene原创 2017-11-06 18:36:07 · 5688 阅读 · 5 评论 -
Incorporating organelle correlations intosemi-supervised learning论文分析
Incorporating organelle correlations intosemi-supervised learning for protein subcellular localization prediction动机:曾经的系统性能问题导致图像处理质量不高现有的生物信息图像内标注稀疏,样本少多标记类蛋白质用传统生物实验和自动化难以检测概述:贝叶斯网络是一种描述事物错综复杂关系翻译 2017-11-13 14:12:55 · 646 阅读 · 0 评论 -
概率统计与机器学习:独立同分布,极大似然估计,线性最小二乘回归
独立同分布独立性概念:事件A,B发生互不影响公式:P(XY)=P(X)P(Y)P(XY)=P(X)P(Y) , 即事件的概率等于各自事件概率的乘积举例: 正例:两个人同时向上抛硬币,两个硬币均为正面的概率反例:狮子在某地区出现的概率为X,老虎出现概率为Y,同时出现的概率并不满足P(XY)=P(X)P(Y)P(XY)=P(X)P(Y) ,因为老虎在的地方一般不会有狮子。同分布概念:随机变原创 2017-07-15 10:01:49 · 5123 阅读 · 0 评论 -
概率统计与机器学习:机器学习的各类型最优化方法
机器学习的最优化方法原创 2017-09-14 17:16:42 · 869 阅读 · 0 评论 -
概率统计与机器学习:机器学习常见名词解释(过拟合,偏差方差)
过拟合,欠拟合过拟合和欠拟合 仍旧以线性回归举例,f(x,w)=w1x1+w2x2...wnxnf(x,w) = w_{1}x_{1} + w_{2}x_{2}...w_{n}x_{n} 我们要在损失函数最小的情况下得到权值wE=∑Ni=1(yi−f(x,w))2E = \sum_{i=1}^{N} (y_{i} - f(x,w))^{2} 但是阶数N也是需要考虑的,比如一阶就是一条线,特原创 2017-07-31 17:34:04 · 1032 阅读 · 0 评论 -
py2.7《机器学习实战》使用Apriori算法进行关联分析
一、关联分析关联分析的主要样例就是:啤酒->尿布。一、(1)频繁项集:经常出现在一起的物品的集合(2)关联规则:两种物品之间有很强的联系二、(1)支持度:数据集中包含该项集的记录的所占比例,书中给出了:{豆奶}=4/5 ,所以豆奶的支持度为4/5; {豆奶,尿布} = 3/5 , 所以后者为3/5;(2)可信度/置信度 : 是针对关联规则的一种操作,书中: {尿布}->原创 2017-03-27 23:45:10 · 684 阅读 · 0 评论 -
py2.7《机器学习实战》利用k-means聚类算法对未标数据分组
一、支持函数from numpy import *def loadDataSet(fileName): dataMat = [] fr = open(fileName) for line in fr.readlines(): curLine = line.strip().split('\t') fltLine = map(float,c原创 2017-03-16 18:48:38 · 781 阅读 · 0 评论 -
py2.7 : 《机器学习实战》树回归 3.8号 CART算法用于回归
9.3将CART算法用于回归在python中可以直接以字典这个数据结构来实现树的生成而且CART是给定切分特征值,用来划分特征集是归于左边还是右边def binSplitDataSet(dataSet, feature, value):#数据集合,待切分特征和特征的值 mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:原创 2017-03-08 14:28:14 · 467 阅读 · 0 评论 -
py2.7 : 《机器学习实战》 朴素贝叶斯 1.12号 4.5.3 训练算法:从词向量计算概率
PS:朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法4.5.1:准备数据:从文本中构建词向量# -*- coding:utf-8 -*-def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe原创 2016-12-27 16:39:00 · 1510 阅读 · 2 评论 -
使用Knn算法实现手写数字识别系统(附带jpg转txt代码)
手写识别暂且可以理解为:一个jpg格式,然后转换为txt格式,这里普遍用01来替代。先附上代码,以后可以自己构建此类数据集jpg格式转txt格式:(代码的核心思想是如何求出对应灰度值后填充自己规定的ascii_char)from PIL import Imageimport argparseascii_char = '01'def select_ascii_char(原创 2017-01-16 23:57:19 · 3349 阅读 · 0 评论 -
scikit-learn文档学习笔记
(一)、获取数据,处理数据# -*- coding: utf-8 -*-#(一)加载数据import numpy as npimport urlliburl = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"raw_dat原创 2017-02-06 23:12:11 · 552 阅读 · 0 评论 -
py2.7 : 《机器学习实战》 决策树 12.5:构造注解树
香农熵:集合信息的度量方式定义为:信息的期望值计算所有类别所有可能值包含的信息期望值:H = sum(-p(xi)*log2p(xi)) (1# -*- coding: utf-8 -*-from math import logdef calcShannonEnt(dataset): #计算香农熵 numEntries = len(dataset) #计算样本个数原创 2016-11-24 19:11:36 · 1030 阅读 · 0 评论 -
py2.7 : 《机器学习实战》 k-近邻算法 11.19 更新完毕
主要有几个总结的:1.python支持文件模块化,所以在同一个目录下import就可以调用了;2.中文注释要加上 # -*- coding: utf-8 -*-3.import numpy 和 from numpy import * 区别是, 对于前者,调用的时候需要加上名字:numpy.方法() ; 对于后者,直接 方法();剩下的多多少少的放在代码的注释里了。kNN.py:原创 2016-11-14 20:09:57 · 1653 阅读 · 2 评论 -
machine-learning-ex3
本周作业 :Multi-class Classification and Neural Networks(多层次分类和神经网络)原创 2016-10-08 17:21:57 · 3939 阅读 · 1 评论 -
machine-learning-ex2
第一次这样写作业,摸索了很久都没有头绪,后来才明白怎么去做作业。(当然还是不会)1.仔细阅读PDF,这里老师会给出一系列的要求2.去完成要求中需要补充的代码(公式)到各个函数里面3.完成后测验看能不能得到相应的图形4.提交前言(译):针对这次作业而言,是构建一个逻辑回归模型,判断一个大学生是否被录取;(故1为录取,0为没有录取)有历史的数据作为训练集,使用逻辑回归判原创 2016-09-26 14:06:39 · 2182 阅读 · 0 评论 -
机器学习第一周笔记
(一)1.学习分为:监督学习 和 非监督学习;2.监督学习问题中分为:回归问题和分类问题;3.回归问题:当数据类型可以抽象为连续的数据时候,则可以当作回归类;4.分类问题:当数据类型抽象为(0,1,2,3.....)等表示数据特征时候可以当作分类问题;eg:(1)有一批货物清单,货物有几千件可以卖,预测出未来三个月能卖出多少货物? 答:回归类型,原创 2016-09-06 10:31:21 · 424 阅读 · 0 评论 -
使用scikit-learn实现逻辑回归对牵牛花类别的预测
# -*- coding: utf-8 -*-from sklearn.datasets import load_iris #载入自带牵牛花数据from sklearn.cross_validation import train_test_split #使用交叉验证划分数据集from sklearn import preprocessing #数据预处理#读取数据iris = load原创 2017-02-09 00:13:43 · 480 阅读 · 0 评论 -
mysql学习笔记(一) 基础操作
1. mysql -uroot - p : 登录名为root的账户2.create database :创建名为XXX的数据库 eg : create database mysql_test , 创建名为 mysql_test 的数据库3.use : 连接名为XXX的数据库 eg: use mysql_test , 如果出现 Database changed 则创建成功原创 2017-01-22 00:18:36 · 658 阅读 · 0 评论 -
py2.7 : 《机器学习实战》 Logistic回归 1.22号 5.3 分析数据:随机梯度上升
5.2.2 训练算法:使用梯度上升找到最佳参数PS:加法变成减法就是梯度下降输入代码:# -*- coding: utf-8 -*-from numpy import *def loadDataSet(): dataMat = [] ; labelMat = [] fr = open('testSet.txt') for line in fr.readlin原创 2017-01-20 01:26:29 · 656 阅读 · 0 评论 -
mysql学习笔记(五)索引、视图,导入和导出,备份和恢复
一、索引索引是一种与表有关的结构,它的作用相当于书的目录,可以根据目录中的页码快速找到所需的内容。当表中有大量记录时,若要对表进行查询,没有索引的情况是全表搜索:将所有记录一一取出,和查询条件进行一一对比,然后返回满足条件的记录。这样做会消耗大量数据库系统时间,并造成大量磁盘 I/O 操作。而如果在表中已建立索引,在索引中找到符合查询条件的索引值,通过索引值就可以快速找原创 2017-02-04 00:42:43 · 3071 阅读 · 0 评论 -
最小二乘法的证明以及最优化系数的求解 Least squares
定理:最小二乘法就是通过最小化误差的平方和寻找数据的最佳函数匹配,使得最后预测和真实值之差的平方的最小值最小一、矩阵求导∇Af(A) 代表的意思是:对于一个A矩阵(M x N), ij系数满足 ∂f/∂Aij ,即对矩阵里的元素求导For example : A为一个2 x 2矩阵即有函数f(X)则根据上面对矩阵求导法则二、矩原创 2017-03-02 14:15:54 · 11320 阅读 · 2 评论 -
mysql学习笔记(四)数据库及表的修改和删除
额外补充:1.查询文件中所有数据库 : show databeses ;2.进入sql文件 : source 正文:1.删除数据库 drop database 数据库名字 ; eg : drop database test_01;2.重命名一张表: rename table + 文件名 to 重命名文件名 ; eg : rename table test原创 2017-01-30 18:50:23 · 643 阅读 · 0 评论 -
py2.7 : 《机器学习实战》 SVM支持向量机:1.26号 6-1 SMO算法简化版
概念:SMO(Sequential Minimal Optimization)是针对求解SVM问题的Lagrange对偶问题,一个二次规划式,开发的高效算法。传统的二次规划算法的计算开销正比于训练集的规模,而SMO基于问题本身的特性(KKT条件约束)对这个特殊的二次规划问题的求解过程进行优化。对偶问题中我们最后求解的变量只有Lagrange乘子向量,这个算法的基本思想就是每次都只选取一对,固定向量原创 2017-01-24 22:29:55 · 1205 阅读 · 0 评论 -
mysql学习笔记(三)select语句
1.基本语法(1)selet * from table_name : 查询table_name表中的所有内容(2)selet 条件 from table_name : 查询table_name表中指定条件的内容2.数学符号条件selct中一般会有where限制语句,eg : select name name , age from table_name where age原创 2017-01-25 00:08:59 · 435 阅读 · 0 评论 -
梯度下降法证明以及最优化系数的求解 gradient descent
文中所示公式以Andrew Ng CS229课程的讲义为主定义:求解无约束最优化问题的一种常用方法,用负梯度方向为搜索方向的,梯度下降法越接近目标值,步长越小,前进越慢算法实现:属于迭代算法,每一步都需要求解目标函数的梯度向量1.参数方程假设特征有X1,X2, , 则方程有:原创 2017-02-26 13:21:38 · 6822 阅读 · 0 评论