机器学习
TccccD
这个作者很懒,什么都没留下…
展开
-
机器学习笔记:Logistic回归
Logistic回归优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分类精度可能不高适用数据类型:数值型和标称型数据实现Logistic回归我们需要借助类似于阶跃函数的Sigmoid函数,在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个结果代入Sigmoid函数中,进而得到一个范围在0-1之间的数值。任何大于0.5的数据被分入1类,小于0.5即被归入0原创 2017-07-30 10:03:35 · 547 阅读 · 0 评论 -
MXNet下,随机生成图片Iter
为了测试有时需要随机生成图片文件,为了自己predict需要去掉了label。 MXNet的module比较麻烦,一定需要使用DataIter,于是自己写了测试使用的DataIterclass RandomDataIter(mx.io.DataIter): def __init__(self, batch_size, max_iter=1000, dtype=np.float32, ...原创 2018-06-22 15:41:23 · 431 阅读 · 0 评论 -
Python查看GPU已使用的显存
pip安装pynvmlpip install nvidia-ml-py3如果是Python2,则pip nvidia-ml-py2之后可以在Python3 下使用了import pynvmlpynvml.nvmlInit()# 这里的0是GPU idhandle = pynvml.nvmlDeviceGetHandleByIndex(0)meminfo = pynvml...原创 2018-06-22 15:36:40 · 27430 阅读 · 2 评论 -
机器学习-数据挖掘-千千问------更新时间 2018.3.23
问项目谈谈你最熟的或者做的时间最长的项目描述项目解决的问题描述数据挖掘竞赛解决的问题描述对问题的分析描述解决方案的流程,数据挖掘的流程怎么做特征工程的 数据预处理的方法有哪些 归一化标准化方法有哪些对缺失值处理方法有哪些对项目的数据做了哪些处理怎么提取特征的,提取特征的方法提取了多少特征,特征的维度,哪些特征比较好对特征的评估方法是什么,怎么判断其好坏用了什么模型 ...原创 2018-03-23 19:21:40 · 490 阅读 · 2 评论 -
为什么深度学习不采用牛顿法或拟牛顿法作为优化算法?
出处:http://blog.csdn.net/VictoriaW/article/details/71710280 原因一:牛顿法需要用到梯度和Hessian矩阵,这两个都难以求解。因为很难写出深度神经网络拟合函数的表达式,遑论直接得到其梯度表达式,更不要说得到基于梯度的Hessian矩阵了。 原因二:即使可以得到梯度和Hessian矩阵,当输入向量的维度N较大时,Hessian矩阵的大小转载 2018-02-05 00:43:39 · 3097 阅读 · 0 评论 -
GBDT与XGBOOST的联系和区别
最近翻阅了一些介绍GBDT与XGBOOST的原理的博客和论文,网上以及有很多介绍它们的文章了,但博主还是想记录一下它们的原理以及自己的理解,即是方便自己翻阅复习也是希望大佬们提提建议。GBDTGBDT即是Gradient Boosting Tree(梯度提升树),很容易联想到的是这里的梯度提升与Gradient Descend(梯度下降)之间的关系。不去理解这个“Boosting ”,原创 2018-01-03 12:30:33 · 14268 阅读 · 3 评论 -
机器学习笔记:kMeans聚类
kMeans聚类优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 适用数据类型:数值型数据K-均值算法: 先随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,具体来讲为每个点找距其最近的质心,并将其分配给该质心所对应的簇。 再每个簇更新质心为该簇所有点的平均值。Python 3.6实现kMeans算法import numpy as n原创 2018-01-11 23:31:12 · 1077 阅读 · 0 评论 -
机器学习笔记:kNN算法
k-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型k的含义:我们只选择样本数据集中前k个最相似的数据,通常不大于20,在这k个数据集中选择出现次数最多的分类作为新数据的分类。kNN算法有很多不同类型,这里介绍的是利用字典存储每个标签出现的频率,operator操作键值进行排序,返回出现最多的分类名称的方原创 2017-07-26 17:10:03 · 435 阅读 · 0 评论 -
机器学习笔记:决策树
决策树优点:计算复杂度不高,输出结果易于理解,对中间值得缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题适用数据类型:数值型和标称型如图为决策树的一个形式,最后有“no”、“yes”两个分类结果。原创 2017-07-27 10:29:27 · 326 阅读 · 0 评论 -
《机器学习实战》书中python2.7与3.6的区别-持续更新
《机器学习实战》书中使用的是python2.7,而对于现在新接触python的同学来说都是上手python3.6版本。由于本渣渣也正在学习此书,将陆续列出遇到的不同于现实编码的困难与解决方法(如果能解决的话.......)。1.在import numpy时候,书中提倡from numpy import *而我们在学习python3.6时常用import numpy as np,原创 2017-07-27 15:23:35 · 7774 阅读 · 0 评论 -
机器学习笔记:朴素贝叶斯
朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题;缺点:对于输入数据的准备方式较为敏感;适用数据类型:标称型数据。这里用到的贝叶斯准则:p(c|x,y)=p(x,y|c)*p(c)/p(x,y)而这个准则可以由我们熟悉的全概率公式推导出来:p(x,y|c) = p((x,y)·c)/p(c)当然这是站在仅限的大学高数知识所能想到的贝叶斯准则:·原创 2017-07-29 18:08:21 · 647 阅读 · 1 评论 -
用Python进行数据挖掘(数据预处理)
用Python进行数据挖掘(数据预处理)本博客进行数据预处理的方法总结自kaggle的几道题目: 1.HousePrices 2.Titanic 以及比较不错的几个kernels: 1.https://www.kaggle.com/pmarcelino/house-prices-advanced-regression-techniques/comprehensive-data-explora原创 2017-08-27 19:42:23 · 113886 阅读 · 8 评论 -
机器学习笔记:SVM
SVM-Support Vector Machines-支持向量机优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据支持向量机最主要的还是选出离分隔超平面最近的点,这些点叫支持向量,然后最大化支持向量到分隔面的距离。不能耐心的看完SVM的理论了,实在是太多。。等老师给我们讲的原创 2017-08-01 21:35:07 · 318 阅读 · 0 评论 -
机器学习笔记:线性回归
线性回归:优点:结果易于理解,计算上不复杂缺点:对非线性的数据拟合不好适用数据类型:数值型和标称型设X为数据集,xi为每一行所包含的特征的值,yi为每一行xi的结果,如图:其中xiT表示为xi的转置,abc。。。n表示xi所包含的特征值。设Yi表示用回归系数的向量wi预测出来的y值,如图:有大量的训练集X,也会出现大量的回归系数W,但我们只取一个原创 2017-08-15 10:46:07 · 514 阅读 · 0 评论 -
机器学习笔记:回归树
回归树:优点:可以对复杂和非线性的数据建模 缺点:结果不易理解 适用数据类型:数值型和标称型原创 2018-01-11 19:16:35 · 681 阅读 · 0 评论 -
数据挖掘实践与我的想法之特征工程
从一个最近的天池数据挖掘比赛--商铺定位赛,记录部分特征工程实践内容。 本博客采用二分类XGBOOST模型,同时涉及部分的多分类模型。原创 2017-11-29 14:58:54 · 3627 阅读 · 0 评论 -
MXNet多机分布式配置
mxnet多机分布式配置将一台机器上的mxnet拷到另外两台机器上scp -r /home/hzz/mxnet hzz@9.91.21.37:/home/hzz/mxnet如果已经在自己的环境安装好mxnet或者不想新建一个Python环境,可以忽略这几步。建立新的Python环境对每台机器,用anacodna的conda建立新的Python环境,在这个环境安装mxnet...原创 2018-06-27 14:24:26 · 3209 阅读 · 0 评论