Machine Learning
文章平均质量分 95
哈士奇说喵
我的目标是星辰大海啊~
展开
-
机器学习之K-近邻算法(Python描述)基础
Python 2.7 IDE Pycharm 5.0.3 numpy 1.11.0前言总算迈入机器学习第一步,总比原地踏步要好。什么是K-近邻?一句话总结,物以类聚,人以群分,更‘靠近’哪一个点,就认为它属于那一个点。以一篇硕士论文截图说明Knn算法思想根据这个伪代码流程,我们就可以使用python进行算法重构了,分三步,一算距离,二排序,三取值实现Knn基础代码第一部分,被调函数,在主程序中原创 2016-09-03 20:03:22 · 1073 阅读 · 0 评论 -
使用python对高光谱数据进行处理和分类
目的加载遥感图像的.mat数据进行呈图显示将.mat的数据转化为python后续算法处理的csv文件存储训练模型,观察分类效果,在图中显示与原图对比方法Refer:spectral python官网 使用超强的spectral包!目的1 - 代码 加载遥感图像的.mat数据进行呈图显示part1 . 加载数据#refer:https://github.com/KGPML/Hype原创 2017-11-12 15:20:13 · 42161 阅读 · 57 评论 -
机器学习之K-means算法(Python描述)基础
Python 2.7 IDE Pycharm 5.0.3 numpy 1.11.0 matplotlib 1.5.1可以扩展阅读: 1.(大)数据处理:从txt到数据可视化 2.机器学习之K-近邻算法(Python描述)基础 3.机器学习之K-近邻算法(Python描述)实战百维万组数据数据及参考代码 github地址,下载压缩包,ch10前言从程序上读懂每一行,才是了解算法的开始。原创 2016-09-14 16:26:40 · 2821 阅读 · 1 评论 -
KAGGLE ENSEMBLING GUIDE(注脚)
About TrsKAGGLE ENSEMBLING GUIDECreating ensembles from submission filesVoting ensemblesError correcting codesA machine learning exampleA pinch of mathsNumber of votersCorrelation模型相关性Use for翻译 2017-10-05 13:15:15 · 1915 阅读 · 0 评论 -
机器学习之K-近邻算法(Python描述)实战百维万组数据
Python 2.7 IDE Pycharm 5.0.3 numpy 1.11.0 matplotlib 1.5.1建议先阅读: 1.(大)数据处理:从txt到数据可视化 2.机器学习之K-近邻算法(Python描述)基础 3. 教程来自于《机器学习实战》第二章 4. 代码及数据github@Mini-Python-Project中的DataSource文件夹下有个压缩包前言通过基础的原创 2016-09-08 14:02:52 · 2476 阅读 · 0 评论 -
Stacking Learning在分类问题中的使用
建议先阅读以下文章回归问题构建stacking模型分类问题构建stacking模型codePay AttentionFurther建议先阅读以下文章知乎(必读):Kaggle机器学习之模型融合(stacking)心得Blog:Stacking Models for Improved PredictionsBlog:KAGGLE ENSEMBLING GUIDE(注脚)Blog:如何原创 2017-10-05 15:51:13 · 7767 阅读 · 4 评论 -
总结:数据清洗的一些总结
前言 在整理项目的时候发现清洗过程是一个非常细节的过程,几乎贯穿始终,也是后续步骤特征提取等的前置条件,所以整理如下,因为展开较大,所以我已近上传mindnode脑图和原始照片尺寸,请在这里下载数据清洗脑图原版致谢机器学习基础与实践(一)—-数据清洗箱形图为什么能检测异常值,原理是什么?五个步骤教你数据清洗数据清洗基本概念标准化矩阵 协方差矩阵 相关系数矩阵数据挖掘数据预处理之:异常值检测数据原创 2017-08-25 14:31:54 · 4967 阅读 · 0 评论 -
利用N-Gram模型概括数据(Python描述)
decode的作用是将其他编码的字符串转换成unicode编码, 如str1.decode(‘gb2312’),表示将gb2312编码的字符串转换成unicode编码。 encode的作用是将unicode编码转换成其他编码的字符串, 如str2.encode(‘gb2312’),表示将unicode编码的字符串转换成gb2312编码。 import stringlist =原创 2016-08-08 16:45:14 · 15726 阅读 · 2 评论 -
优化:一种将grid-search速度提升10倍的方法
Python 2.7 IDE Pychrm 5.0.3 sci-kit learn 0.18.1前言 抖了个机灵,不要来打我,这是没有理论依据证明的,只是模型测试出来的确有效,并且等待时间下降(约)为原来的十分之一!!刺不刺激,哈哈哈。原理 基本思想:先找重点在细分,再细分,伸缩Flexible你怕不怕。以下简称这种方法为FCV不知道CV的请看@MrLevo520–总结:Bias(偏原创 2016-11-25 15:17:50 · 7596 阅读 · 4 评论 -
总结:Bootstrap(自助法),Bagging,Boosting(提升)
前言 最近在理清一些很必要的也很基础的东西,记录一下,结合网上和文献,自己也有些易化使之更轻松理解,如有错误,请不吝赐教,多谢!Bootstrap(自助法) Bootstrap是一种抽样方法核心思想子样本之于样本,可以类比样本之于总体栗子:我要统计鱼塘里面的鱼的条数,怎么统计呢?假设鱼塘总共有鱼1000条,我是开了上帝视角的,但是你是不知道里面有多少。步骤:1. 承包鱼塘,不让别人捞鱼(原创 2016-11-17 17:10:30 · 12017 阅读 · 1 评论 -
总结:Bias(偏差),Error(误差),Variance(方差)及CV(交叉验证)
Error = Bias + Variance+Noise 什么是Bias(偏差) Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,即算法本身的拟合能力什么是Variance(方差) Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。反应预测的波动情况。列表内容什么是Noise Error原创 2016-11-11 18:45:54 · 12641 阅读 · 3 评论 -
(大)数据处理:从txt到数据可视化
Python 2.7 IDE Pycharm 5.0.3 numpy 1.11.0 matplotlib 1.5.1 本次可视化数据由机器学习实战倾情提供(就是盗用了数据和改了一点点程序更加易读)前言将txt中数据进行可视化展示用于分析需求你只需要知道 每行的第一列数据是飞行里程,第二列是玩游戏所占百分比时间,第三列是每年吃的冰激凌消耗量,第四列是某个xx觉得这类人的适合约会的感兴原创 2016-09-08 13:52:33 · 4280 阅读 · 1 评论 -
总结:sklearn机器学习之特征工程
关于本文特征工程是什么32 数据探索性分析Exploratory Data AnalysisEDA数据预处理1 无量纲化 数据规范化11 标准化 0均值标准化Z-score standardization12 区间缩放法线性函数归一化Min-Max scaling13 标准化与归一化的区别 标准化规范化与归一化的区别2 对定量特征二值化3 对定性特征哑编码4 缺失值计算原创 2017-09-25 15:24:46 · 8397 阅读 · 2 评论