code_caq-CSDN博客

原创【台大李宏毅ML课程】Lecture 13 Unsupervised Learning——Linear Dimension Reduction笔记

本节课主要讲了两种线性降维的方法——cluster和PCA，并从两个角度解释了PCA。最后讲了一些关于矩阵分解的知识。1.clustercluster就简单的带过了，主要是k-means和HACk-means原理：（1）先初始化k个中心点ci (i=1,….,k) （2）如果样本x离ci更近，就划分到第i类（3）更新每个类别的中心点（4）重复（2）（3）如何选择K...

2018-03-25 15:13:45 1107 2

原创【台大李宏毅ML课程】Lecture 14 Word Embedding笔记

本节课主要讲了无监督学习——word embedding的一些基本概念1.word embedding（word2vector）传统的1 of N encoding（或者one-hot独热编码）的表示法过于稀疏，不可取。所以考虑将每个word映射到另一个空间里去 machine通过阅读很多documents来理解语义，从而可以达到word embedding的目的2.How ab...

2018-03-22 11:30:49 1715

原创【台大李宏毅ML课程】Lecture 12 Semi-Supervised Learning半监督学习笔记

本节课主要讲了半监督学习Semi-supervised：样本中有一部分数据有标签（label data）但很少，另一部分数据无标签（unlabel data），很多~因为收集无标签的数据很容易，但是收集有标签数据没那么容易~图片来源于李宏毅老师ppt，如有错误务必指正！！博主总结的时候喜欢中英夹杂，别介意！1.Semi-supervised Generative Model 基本思想...

2018-03-21 16:51:42 1399

原创【台大李宏毅ML课程】Lecture 19 Transfer Learning迁移学习笔记

本节课主要讲了迁移学习的一些基本概念和算法的主要思想~~ 图片来源与李宏毅老师ppt 如有错误，请务必指正！！1.Transfer Learning基本概念target data：相关的数据，很少 source data：不直接相关的，很多有很多与target data不直接相关的source data 比如说target data是一些小猫小狗，任务是给小猫小狗分类， ...

2018-03-21 15:14:01 1458

原创 machine learning资料总结与心得

待更新……博客、网址： UFIDL： http://ufldl.stanford.edu/wiki/index.php/UFLDL教程七月在线创始人的博客： http://blog.csdn.net/v_july_v ……书：《PRML》周志华西瓜书李航《统计学习方法》机器学习课程视频资料：斯坦福大学Andrew Ng《机器学习课程》 http://ope...

2018-03-13 21:19:48 443

原创图像傅里叶变换与逆变换OpenCV实现

代码步骤：读入图像->傅里叶变换->傅里叶逆变换->读取图像int main(){ cv::Mat img = cv::imread("lena.jpg"); DFTtransform(img); cv::imshow("DFT img", img); cv::waitKey(); system("pause"); ...

2018-03-13 21:10:57 4824

原创【台大李宏毅ML课程】Lecture 6-11 Deep Learning笔记

李宏毅老师ML课程的Lecture 6-11都是在讲deep learning，所以合在一起总结好了。主要内容我用xmind大致总结了一下。如有错误，请务必指正谢谢！！用图来源于课程以及网上的图~1.Deep learning发展史略（= =||）2.Mini-batch Gradient Descent 每次（one epoch）选取一部分数据进行梯度下降，从而参数...

2018-03-13 21:04:44 535 1

原创【台大李宏毅ML课程】Lecture 4 Classification笔记

Lecture 4 Classification本讲主要讲述了基于概率模型的分类器分类的应用场景就很多了，如信用卡评分、疾病诊断、模式识别等等等等。1.为什么不用回归而用分类因为那些离回归函数比较远但却是正确的点会带了很大的error2.初步的想法对于一个二分类问题，采用如下方式：哪个类别的P(C|x)大就判为哪一类；其中P(C1)和P(C2)可以根据训练集中类...

2018-02-09 21:06:57 528

原创【台大李宏毅ML课程】Lecture 3 Gradient Descent笔记

（感谢李宏毅老师，所有图片来自于老师的课件）Lecture 3 Gradient Descent本讲主要讲了解决最优化问题用到的梯度下降的方法，以及对梯度下降法的一个改进，最后从泰勒级数的角度解释了梯度下降的数学原理。本讲从比较深的角度介绍梯度下降，讲的十分的好。1.Review：Gradient Descent 梯度下降法主要是为了求解凸优化问题（具体步骤可见Lecture 1...

2018-02-09 10:58:47 1091

原创【台大李宏毅ML课程】Lecture 1-2 Linear Regression、Error笔记

（感谢李宏毅老师，所有图片来自于老师的课件）Lecture 1 Regression本讲主要是讲了一个线性回归模型，以及梯度下降法求解参数。以宝可梦为例。回归（Regression）有很多应用场景，比如时序预测、自动驾驶、推荐系统等。1.线性回归以线性回归y=wx+b为例，可以基于损失函数最小（此处选取平方损失函数）来求解参数w和b，从而得到best model。为...

2018-02-08 21:16:09 1080

原创图像纹理复杂度计算

定义图像的灰度级直方图的二阶矩（方差）描述纹理复杂度：其中z表示灰度，p(zi)为相应的直方图，其中L是不同灰度级的数量。m是z的均值： C++实现如下： cv::Mat img = cv::imread("test.bmp"); int height = img.rows; int width = img.cols; double mean = 0

2018-01-07 20:32:40 13716 3

转载卡方检验特征选择

参考：https://segmentfault.com/a/1190000003719712http://blog.csdn.net/shuzfan/article/details/52993427卡方检验，或称x2检验，是一种常用的特征选择方法，尤其是在生物和金融领域。χ2 用来描述两个事件的独立性或者说描述实际观察值与期望值的偏离程度。χ2值越大，则表明实际观察值与

2017-12-07 11:36:07 2684

转载 Word2Vec小结

发现了一篇总结的比较好的文章如下，向博主致敬http://blog.csdn.net/l18930738887/article/details/54177938声明：1）本参考了博客、文献及寒小阳深度学习的视频。本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。

2017-12-06 09:10:02 701

原创【总结】python一些常见的库

1.Numpy：ndarray矩阵计算（ndim,shape,dtype）。 http://old.sebug.net/paper/books/scipydoc/index.html#id2 https://docs.scipy.org/doc/numpy/reference/routines.html2.Matplotlib画图 http://matplotlib.org/index.htm

2017-12-05 17:05:58 327

转载 Tensorflow经典案例

第一步：给TF新手的教程指南原文1：tf初学者需要明白的入门准备机器学习入门笔记：https://github.com/aymericdamien/TensorFlow-Examples/blob/master/notebooks/0_Prerequisite/ml_introduction.ipynbMNIST

2017-12-05 16:47:32 387

转载 caffe之训练数据格式

原文地址：http://blog.csdn.net/hjimce/article/details/49248231作者：hjimce caffe对于训练数据格式，支持：lmdb、h5py……，其中lmdb数据格式常用于单标签数据，像分类等，经常使用lmdb的数据格式。对于回归等问题，或者多标签数据，一般使用h5py数据的格式。当然好像还有其它格式的数据可用，不过我一般使用这

2017-11-28 11:18:36 675

转载 C++知识点小结

reference：作者：大叔龙链接：http://www.jianshu.com/p/e21d99638cf9 來源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。1.基础问答：容器、数据结构、排序算法什么得 2.然后一顿虚函数、虚函数表、纯虚函数、抽象类、析构函数、拷贝构造函数 3.操作数重载、STL、智能指针、内存问题1，你知道虚函数吗？答案：实

2017-09-24 12:05:20 1146

原创基于canny边缘检测以及基于radon变换的矩形旋转矫正

方法一：clear all; clc; close all;Img = imread('test.jpg');figure;subplot(2, 2, 1); imshow(Img); title('original image');I = rgb2gray(Img);subplot(2, 2, 2); imshow(I); title('gray image');bw = im2bw(I

2017-09-08 19:35:26 2201

原创机器学习中偏差和方差有什么区别？

偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。参考：Understanding the Bias-Variance Tradeoff作者：Jason Gu 链接：https://www.zhihu.com/question/20

2017-09-08 19:03:43 852

原创极大似然估计法推出朴素贝叶斯法中的先验概率估计公式

令参数，其中。那么随机变量Y的概率可以用参数来表示为一个紧凑的形式，I是指示函数成立时，I=1；否则I=0。极大似然函数，其中N为样本总数，为样本中的样本数目，取对数得到，要求该函数的最大值，注意到约束条件可以用拉格朗日乘子法，即，求导就可以得到：联立所有的k以及约束条件得到，完毕作者：Fisher链接：https://www.zhihu

2017-09-08 18:56:27 4048 1

原创第一个spark scala程序——wordcount

背景：C++的第一个程序是helloworld，但对于spark scala，输出helloworld并没有什么意义，体现不了spark的精髓，所以wordcount才是王道……话不多说，直接上代码wordcount （spark本地实现）本地文件test.txt如下： spark shell java scala spark shellimport org.apache.spark.{Sp

2017-09-06 19:51:43 666

原创机器学习二分类问题模型效果度量方法

ref http://blog.csdn.net/ice110956/article/details/20288239 http://www.cnblogs.com/Allen-rg/p/5821949.html http://blog.csdn.net/taoyanqi8932/article/details/54409314 https://www.zhihu.com/question/

2017-08-29 17:19:02 5674 1

原创 Spark学习链接(Scala)

1.scala 官方：http://www.scala-lang.org/api/2.10.6/#package http://www.runoob.com/scala/scala-tutorial.html2.Spark官方指南 http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package3

2017-08-11 16:29:10 372

原创 Rocchio算法用于文本分类

谈谈自己的理解…… 假设现有正样本集P和负样本集N用来训练一个二分类Rocchio分类器主要思想如下：1.对于P和N分别计算质心（*）2.对于以后待分类的每一个文档d，计算d与 c+或者c-的相似度（如余弦相似度），并划分为相似度大的那一类。（*）中各个字母的意义： c+、c-：训练集P和N的质心，即能够代表这一类的一个向量 α、β：可用于调节正负样本对于结果的影响 d的含义:代表每

2017-07-16 22:13:27 1408

转载 sklearn.linear_model——梯度提升树(GBDT)调参小结

文章来源：http://www.cnblogs.com/pinard/p/6143927.html1. scikit-learn GBDT类库概述　　　　在sacikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同，当然有些参数

2017-07-11 14:55:32 1930

转载 sql之left join、right join、inner join的区别

left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 inner join(等值连接) 只返回两个表中联结字段相等的行举例如下：表A记录如下： aID　　　　　aNum 1　　　　　a20050111 2　　　　　a20050112 3　　　　　a20050113 4

2017-07-11 14:51:16 341

转载 One-Hot encoder独热编码

ref：http://www.cnblogs.com/daguankele/p/6595470.html1、什么是独热码　　独热码，在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制。　　在机器学习中对于离散型的分类型的数据，需要对其进行数字化比如说性别这一属性，只能有男性或者女性或者其他这三种值，如何对这三个值进行数字

2017-07-07 20:57:44 1420

原创 Notes—Dense Vector and Sparse Vector

……未完待补充…… ref： 1. Spark官方文档 2. http://bbs.csdn.net/topics/391002544在spark.ml.linalg里有两种vector——DenseVector 和 Sparse Vector，两者都继承于Vectors1.两者区别 DenseVector： a value arraydef: Vectors.dense(values:

2017-07-02 12:40:21 4018

原创 Notes—Random Forest-feature importance随机森林对特征排序

……未完待补充…… ref:http://blog.datadive.net/selecting-good-features-part-iii-random-forests/two methods: 1.Mean decrease impurity 大概是对于每颗树，按照impurity（gini /entropy /information gain）给特征排序，然后整个森林取平均2...

2017-07-01 16:10:23 16287

转载大规模机器学习：SGD，mini-batch和MapReduce

因为不知道原文的链接，在此向原作者表达歉意。大规模机器学习注：本文内容来自网友的博客及Andrew NG在coursera上的机器学习公开课，感兴趣的同学可以去看原始视频，此处不提供链接机器学习在这几年得到快速发展，一个很重要的原因是 Large Dataset（大规模数据），这节课就来介绍用机器学习算法处理大规模数据的问题。关于数据的重

2017-06-16 12:25:35 763

转载 RDD和Dataframe

RDD是一个分布式的无序的列表。RDD中可以存储任何的单机类型的数据，但是，直接使用RDD在字段需求明显时，存在算子难以复用的缺点。举例如下：例如，现在RDD 存的数据是一个Person类型的数据，现在要求所有每个年龄段（10年一个年龄段）的人中最高的身高和最大的体重。使用RDD 接口，因为RDD不了解其中存储的数据的具体的结构，数据的结构对它来说就是黑

2017-06-15 10:07:10 671

原创 win下scala环境配置

ref：http://www.runoob.com/scala/scala-install.htmlstep1：配置java安装环境看 step2：下载scala step3：配置scala环境变量安装好了！

2017-06-11 10:18:56 392

原创 win下java开发环境配置

哈哈哈哈这个链接讲的很详细 http://www.runoob.com/java/java-environment-setup.html

2017-06-10 22:04:23 287

原创 Notes—MySQL（cmd）

……未完…… 0、安装1、Connect to MySQL mysql -h 主机地址 -u 用户名－p 用户密码 mysql -u root -p; Enter password：****2、退出 exit、 quit3、MySQL初探与创建表 3.1 显示数据库列表 show databases; 显示库中的数据表： use mysql; show tables;

2017-06-06 19:05:04 355

原创 Notes—Tesseract-OCR使用

1.下载tesseract-ocr-setup-3.02.02.exe 直接安装，简单方便，安装选项默认。安装后的目录里面的文件如下： 2.将要识别的文字图片放在目标文件夹中，如D盘。在D盘中Shift+右键打开命令行。因为环境变量在安装的时候就已经自动配置好了，所以在命令行下直接输入tesseract，如果显示下图信息则表示安装成功。 3.对测试的文字图片进行识别，命令行输入 tesser

2017-06-05 11:37:26 492

原创 Notes—Latent Dirichlet Allocation，LDA主题模型

【数学之美】 ……未完待续…… ref： 1、★★★★★★★★★★通俗理解LDA主题模型★★★★★★★★★★ 2、主题模型-LDA浅析 3、搜索背后的奥秘――浅谈语义主题计算 4、主题模型TopicModel：主题模型LDA的应用 5、David M. Blei, AndrewY. Ng, Michael I. Jordan, LatentDirichlet Allocation, ...

2017-06-03 13:48:02 795

转载 Notes—LDA中的gamma函数和几个分布

ref：http://blog.csdn.net/v_JULY_v/article/details/41209515（详细推导见该链接） LDA模型中用到的数学知识：一个函数：gamma函数四个分布：二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理念：共轭先验和贝叶斯框架两个模型：pLSA、LDA（在本文第4 部分阐述）一个采样：G

2017-06-03 10:55:24 2006

原创 Notes—Convolutional layer

(this img is made by myself) note: Convolutional layer: convolve the filter with image,slide over the image spatially,computing dot products.stride:stepzerp-padding: (1)reserve feature map’s resolu

2017-05-21 19:48:35 435

原创 sklearn——PCA&LDA

LDA：利用类别信息，将数据投影到到最容易区分的方向。 PCA：并没有利用类别信息，只是降维后每一维特征方差都大。# 导入iris数据集from sklearn.datasets import load_irisimport numpy as npiris = load_iris()# PCAfrom sklearn.decomposition import PCApca = PCA(n

2017-05-15 15:56:20 733

原创 win下更改jupyter-notebook.exe工作路径

在安装了jupyter的前提下……（1）首先把安装路径（例如：我的是‘……\Anaconda\Scripts’）下的jupyter-notebook.exe右键发送到桌面快捷方式。（2）双击点开jupyter-notebook.exe，发现工作路径默认为’……\Anaconda\Scripts’（3）更改：右键桌面快捷方式jupyter-notebook.exe的属性，将起始位置改为自己想要的路径即

2017-05-14 22:22:38 1174

空空如也

空空如也