机器学习
文章平均质量分 70
ae5555
这个作者很懒,什么都没留下…
展开
-
深度学习(一)
对大量数据的特征提取是进行进一步研究的关键的第一步。良好的特征表达,对最终算法的准确性起了非常关键的作用。1.一个定义良好特征的,具有代表性和可区分性。2.深度学习需要实现不要人参与特征的选取过程。3.AI要取得突破性的进展,首先要对人脑的工作过程有了充足的了解。4.人的视觉系统的信息处理是分级的。高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意转载 2015-01-23 21:09:08 · 1064 阅读 · 0 评论 -
CUDA(2)
cudaMalloc函数使用限制 1. 可以将cudaMalloc()分配的指针传递给在设备上执行的函数。 2. 可以在设备代码中使用cudaMalloc()分配的指针进行内存读/写操作。 3. 可以将cudaMalloc()分配的指针传递给在主机上执行的函数。 4. 不能在主机代码中使用cudaMalloc()分配的指针进行内存读/写操作。 5. 不能使用标准C的free()函数来释原创 2016-09-28 21:03:14 · 402 阅读 · 0 评论 -
CUDA(1)
CUDA架构之前的图形处理架构中,计算资源划分为顶点着色器和像素着色器。CUDA架构包含了一个统一的着色器流水线。同时,GPU不仅能任意地读写内存,还能访问软件管理的缓存。CPU与GPUCPU 和 GPU之间浮点运算能力之所以存在这样的差异,原因就在于CPU具有复杂的控制逻辑和大容量的缓存,适合进行控制转移,处理分支繁杂的任务,而GPU专为计算密集型、高度并行化的计算而设计。架构使用GPU运行的程序原创 2016-09-27 10:23:41 · 616 阅读 · 0 评论 -
贝叶斯规则和LDA主题模型
共轭先验和共轭分布P(θ\theta) 先验分布、P(θ|X\theta | X)后验分布、P(X |θ\theta)似然函数。 后验分布=先验分布*似然函数/P(X) 使得先验分布和后验分布具有相同的形式,称他们是共轭分布;先验分布称为相应似然函数的共轭先验。 似然函数是关于统计模型中的参数的函数,表示模型参数的似然性,用于在已知观测所得到的结果时,对模型的参数进行估计。Beta分布是二项分原创 2016-02-26 15:32:10 · 1508 阅读 · 0 评论 -
python/逻辑回归
正则化方法,防止过拟合,提高泛化能力在机器学习算法中,常常将原始数据集分为三部分:training data、validation data 、testing data。 其中validation data用来避免过拟合, 根据validation data上的效果确定学习速率、迭代停止时机等。testing data则用来判断模型的好坏。L2 regularization权重衰减L2正则化就是在原创 2015-12-25 14:13:10 · 1162 阅读 · 0 评论 -
theano学习笔记
定义函数 import theano.tensor as T from theano import function,pp //标量 x=T.dscalar(‘x’) //向量 x=T.vector(“a”) //矩阵 x=T.dmatrix(‘x’) y=T.dscalar(‘y’) z=x+y f=function([x,y],z)原创 2015-12-24 20:57:54 · 749 阅读 · 0 评论 -
Shark机器学习库
安装按照官网上的步骤在linux编译后,安装的默认目录在/usr/local/include和/usr/local/lib目录。 使用shark库时,将CMakeLists.txt放在工程目录下,执行 cmake . makeCMakeLists.txt的内容为: cmake_minimum_required(VERSION 2.8) project(ExampleProje原创 2016-01-24 23:25:46 · 1129 阅读 · 0 评论 -
Python/gensim主题模型库
每个py文件称之为模块,每个具有init.py文件的目录被称为包。只要模块或者包所在的目录在sys.path中,就可以使用import 模块或import 包来使用。 如果要使用的模块和当前文件在同一目录,只要import相应的文件名就可以。如果使用的模块不在同一目录下,使用sys.path.append方法将模块所在目录加入到搜素目录中。然后进行import即可。这种方法是暂时的。使用PYT原创 2015-12-29 23:03:52 · 9318 阅读 · 0 评论 -
Python/scikit-learn机器学习库(决策树)
分类 DecisionTreeClassifier可以用于二分类和多分类。 from sklearn.datasets import load_iris from sklearn import tree from sklearn.externals.six import StringIO import pydot iris=load_iris(原创 2015-11-18 22:12:14 · 1370 阅读 · 0 评论 -
决策树与随机森林算法
决策树(分类树)是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树只需要构建一次,每一次预测分类的最大计算次数不超过决策树的深度。决策树学习算法ID3算法通过自顶向下构造决策树来进行学习,构造过程是从”选取分类能力最好的属性作为根节点被测试”开始,然后为根节点属性的每个可能值产生一个分支。选择合适的分割点,将分类的各个子集都很”纯净”。原创 2015-11-18 21:33:39 · 3636 阅读 · 0 评论 -
Python/scikit-learn机器学习库(线性、二次判别分析)
线性判别分析LDA只能学习线性边界,二次判别分析QDA 可以学习二次边界。LDALDA可以将输入的数据降维处理。 import numpy as np from sklearn.lda import LDA X=np.array([[x1,x2,..,xn],…]) Y=np.array([class1,class2,…]) clf=LDA()原创 2015-11-02 14:02:49 · 2227 阅读 · 1 评论 -
python/scikit-learn机器学习库(回归分析)
广义的线性回归模型为: scikit-learn库中将结果存放为coef_,将结果存放为intercept_。回归模型最小二乘法回归最小二乘法计算目标就是: from sklearn import linear_model clf=linear_model.LinearRegression() clf.fit(train_X,train_Y)Ridge Regress原创 2015-10-31 16:03:53 · 1945 阅读 · 0 评论 -
Python/scikit-learn机器学习库(特征选取)
去除方差小的特征设置一个方差阈值,没有达到这个方差阈值的特征都会被丢弃。 VarianceThreshold,算法输入只要求特征(X),不需要输入结果(Y)。 from sklearn.feature_selection import VarianceThreshold X=[[feature1,feature2,…],…] sel=VarianceThreshold(th原创 2015-11-09 21:16:15 · 18640 阅读 · 0 评论 -
Python/scikit-learn机器学习库(SVM支持向量机)
SVMSVM用于分类、回归、异常检测。 优点:高维空间有效。维度小于样本数时依然有效。样本少时表现不好。分类多分类: SVC、NuSVC、LinearSVC。SVMs决策函数依赖于训练数据中一部分,这些向量称为支持向量。NuSVC from sklearn.svm import NuSVC clf=svm.NuSVC()SVC from sklearn import原创 2015-11-03 15:08:14 · 5469 阅读 · 0 评论 -
spark/MLlib 协同过滤算法
http://www.cnblogs.com/zhangchaoyang/articles/2664366.htmlCollaborative Filtering Recommendation 协同过滤推荐算法向量之间的相似度度量向量之间的相似度:距离的倒数、向量夹角、相关系数等。皮尔森Pearson相关系数:或 当两个变量的线性关系增强时,相关系数趋向于1转载 2015-07-20 15:54:39 · 3622 阅读 · 1 评论 -
tensorflow总结
tf.variable_scope & tf.name_scopetf.name_scope不会给tf.get_variable()加命名前缀,tf.variable_scope加命名前缀。查看模型使用的所有变量for v in tf.all_variables(): print(v.name)原创 2016-11-11 15:36:33 · 548 阅读 · 0 评论