python
TccccD
这个作者很懒,什么都没留下…
展开
-
机器学习笔记:回归树
回归树:优点:可以对复杂和非线性的数据建模 缺点:结果不易理解 适用数据类型:数值型和标称型原创 2018-01-11 19:16:35 · 674 阅读 · 0 评论 -
MXNet下,随机生成图片Iter
为了测试有时需要随机生成图片文件,为了自己predict需要去掉了label。 MXNet的module比较麻烦,一定需要使用DataIter,于是自己写了测试使用的DataIterclass RandomDataIter(mx.io.DataIter): def __init__(self, batch_size, max_iter=1000, dtype=np.float32, ...原创 2018-06-22 15:41:23 · 428 阅读 · 0 评论 -
Python查看GPU已使用的显存
pip安装pynvmlpip install nvidia-ml-py3如果是Python2,则pip nvidia-ml-py2之后可以在Python3 下使用了import pynvmlpynvml.nvmlInit()# 这里的0是GPU idhandle = pynvml.nvmlDeviceGetHandleByIndex(0)meminfo = pynvml...原创 2018-06-22 15:36:40 · 27413 阅读 · 2 评论 -
Python中遇到的比较纠结的问题记录-----持续更新
1.set操作之后转换成list出现乱序问题。In[0]: list(set(['1','2','3','4']))Out[1]: ['1', '3', '4', '2']这时候只要按照之前的顺序重新排序即可:a = ['1','2','3','4']sorted(list(set(a)),key=a.index)Out[1]: ['1', '2', '3',原创 2018-01-09 22:23:16 · 292 阅读 · 0 评论 -
mac下单机版 kafka + spark + python搭建与实例
kafka+zookeeper不提供spark安装,这里从kafka安装开始 首先下载kafka和zookeeperbrew install zookeeper等它安装完毕,先进入zookeeper文件夹,往往在/usr/local/Cellar下,启动zookeeper:cd /usr/local/Cellar/zookeeper/3.4.6_1/bin zkServ原创 2018-01-13 20:44:01 · 1316 阅读 · 0 评论 -
机器学习笔记:kMeans聚类
kMeans聚类优点:容易实现。 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。 适用数据类型:数值型数据K-均值算法: 先随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,具体来讲为每个点找距其最近的质心,并将其分配给该质心所对应的簇。 再每个簇更新质心为该簇所有点的平均值。Python 3.6实现kMeans算法import numpy as n原创 2018-01-11 23:31:12 · 1065 阅读 · 0 评论 -
机器学习笔记:kNN算法
k-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型k的含义:我们只选择样本数据集中前k个最相似的数据,通常不大于20,在这k个数据集中选择出现次数最多的分类作为新数据的分类。kNN算法有很多不同类型,这里介绍的是利用字典存储每个标签出现的频率,operator操作键值进行排序,返回出现最多的分类名称的方原创 2017-07-26 17:10:03 · 431 阅读 · 0 评论 -
机器学习笔记:决策树
决策树优点:计算复杂度不高,输出结果易于理解,对中间值得缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题适用数据类型:数值型和标称型如图为决策树的一个形式,最后有“no”、“yes”两个分类结果。原创 2017-07-27 10:29:27 · 322 阅读 · 0 评论 -
《机器学习实战》书中python2.7与3.6的区别-持续更新
《机器学习实战》书中使用的是python2.7,而对于现在新接触python的同学来说都是上手python3.6版本。由于本渣渣也正在学习此书,将陆续列出遇到的不同于现实编码的困难与解决方法(如果能解决的话.......)。1.在import numpy时候,书中提倡from numpy import *而我们在学习python3.6时常用import numpy as np,原创 2017-07-27 15:23:35 · 7772 阅读 · 0 评论 -
机器学习笔记:朴素贝叶斯
朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题;缺点:对于输入数据的准备方式较为敏感;适用数据类型:标称型数据。这里用到的贝叶斯准则:p(c|x,y)=p(x,y|c)*p(c)/p(x,y)而这个准则可以由我们熟悉的全概率公式推导出来:p(x,y|c) = p((x,y)·c)/p(c)当然这是站在仅限的大学高数知识所能想到的贝叶斯准则:·原创 2017-07-29 18:08:21 · 628 阅读 · 1 评论 -
用Python进行数据挖掘(数据预处理)
用Python进行数据挖掘(数据预处理)本博客进行数据预处理的方法总结自kaggle的几道题目: 1.HousePrices 2.Titanic 以及比较不错的几个kernels: 1.https://www.kaggle.com/pmarcelino/house-prices-advanced-regression-techniques/comprehensive-data-explora原创 2017-08-27 19:42:23 · 113781 阅读 · 8 评论 -
机器学习笔记:SVM
SVM-Support Vector Machines-支持向量机优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据支持向量机最主要的还是选出离分隔超平面最近的点,这些点叫支持向量,然后最大化支持向量到分隔面的距离。不能耐心的看完SVM的理论了,实在是太多。。等老师给我们讲的原创 2017-08-01 21:35:07 · 315 阅读 · 0 评论 -
机器学习笔记:线性回归
线性回归:优点:结果易于理解,计算上不复杂缺点:对非线性的数据拟合不好适用数据类型:数值型和标称型设X为数据集,xi为每一行所包含的特征的值,yi为每一行xi的结果,如图:其中xiT表示为xi的转置,abc。。。n表示xi所包含的特征值。设Yi表示用回归系数的向量wi预测出来的y值,如图:有大量的训练集X,也会出现大量的回归系数W,但我们只取一个原创 2017-08-15 10:46:07 · 512 阅读 · 0 评论 -
MXNet多机分布式配置
mxnet多机分布式配置将一台机器上的mxnet拷到另外两台机器上scp -r /home/hzz/mxnet hzz@9.91.21.37:/home/hzz/mxnet如果已经在自己的环境安装好mxnet或者不想新建一个Python环境,可以忽略这几步。建立新的Python环境对每台机器,用anacodna的conda建立新的Python环境,在这个环境安装mxnet...原创 2018-06-27 14:24:26 · 3204 阅读 · 0 评论