机器学习
文章平均质量分 78
小亚文
我喜欢随遇而安的生活,但我更需要自身的努力来创造更好的生活
展开
-
机器学习之逐次下降法
机器学习基础 迭代方法原创 2017-09-13 11:26:03 · 385 阅读 · 0 评论 -
python数据分析与挖掘实战---基于水色图像的水质评价拓展训练
import pandas as pdfileTest ='chapter9/test.xls'dataT =pd.read_excel(fileTest,encoding='utf-8') #读取数据,指定编码#将I II III IV V VI 转换为数字dataT.loc[(dataT[u'空气等级']=='I'),u'空气等级']=1dataT.loc[(dataT[u'空...原创 2018-05-23 14:57:55 · 2863 阅读 · 0 评论 -
python数据分析与挖掘实战---基于水色图像的水质评价(混淆矩阵和学习曲线)
数据模型构建 抽取80%作为训练样本,剩下20%作为测试样本 此案例是《python数据分析与数据挖掘》的第九章,在p200我们可以看到特征的取值范围都在0~1之间,换句话说,如果我们直接输入SVM模型的话,彼此之间的区分度会比较小,因此我们需要做一个放大处理,当然放大系数K不能过大或者过小,经反复试验,我们发现30时,效果比较好。 代码如下:import pandas as pd...转载 2018-05-23 11:52:44 · 5163 阅读 · 3 评论 -
交叉验证 python
以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.常见CV的方法如下:转载 2018-05-22 16:51:21 · 5093 阅读 · 0 评论 -
机器学习之聚类分析K-Means
最近一直想用聚类来分析一下现在的数据,今天发现了一本《python数据分析与挖掘实战》,其中有个案例是介绍航空公司客户价值的分析,其中用到的聚类方法是K-Means方法,搜索网上相关的内容发现好多博客都有些这个案例,找了一个认为比较好的博客来学习,并用自己的数据进行了聚类。 参考博客:https://blog.csdn.net/a857553315/article/details/7917752...原创 2018-04-28 18:01:29 · 948 阅读 · 0 评论 -
python 聚类分析
转自博客 https://blog.csdn.net/elaine_bao/article/details/50242867 keams聚类:https://www.cnblogs.com/yjd_hycf_space/p/7094005.html(可以试试) scipy cluster库简介scipy.cluster是scipy下的一个做聚类的package, 共包含了两类聚类方法: ...转载 2018-04-13 17:19:36 · 7905 阅读 · 0 评论 -
机器学习的思路
参考大牛的文章:http://blog.csdn.net/han_xiaoyang/article/details/50469334认识到机器学习的思路:机器学习基本分为分类、聚类、回归和维度约减四个方法。可以按上图进行选择算法流程: 1.数据分析 可视化 2.建立特征工程(包括对数据进行预处理,补充缺失值,归一化数据等) 3.拿最贴切的机器学习算法模型去验证分析 4.分析模型的过拟合or转载 2017-12-16 14:35:01 · 2144 阅读 · 0 评论 -
PCA降维
http://blog.csdn.net/cherdw/article/details/55813071转载 2017-12-16 13:54:01 · 260 阅读 · 0 评论 -
相似度计算
关于相似度计算,现有的几种基本方法都是基于向量的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐的场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。同现相似度 物品i和物品j的同现相似度公式定义: 其中,分母是喜欢物品i的用户数,而分子是同时喜欢物品i和物品转载 2017-11-14 14:06:49 · 705 阅读 · 0 评论 -
机器学习---浅谈神经网络
参考: http://blog.csdn.net/bitjoy/article/details/50464989此博客对神经网络基础解释的很好转载 2017-10-17 10:33:47 · 289 阅读 · 0 评论 -
径向基网络基础知识
一般机器学习的样本都是离散的数据集,如果是像线性情况,只需要计算出直线的斜率和截距就可以定位回归线。对于非线性的情况,就有点复杂了。因为求解的回归线是一条曲线(面),而且该曲线(面)要最大限度地拟合出离散样本的变化趋势。 在数学上,我们利用多项式的原理,添加一个项达到类似的效果,这就是曲面拟合。我们知道一个平面是一个一阶多项式(线性)。如果山地有一次弯曲就是一个二阶(二次)多项式,三阶(三次)多项转载 2017-10-31 14:02:06 · 722 阅读 · 0 评论 -
机器学习之最小二乘法
“最小二乘法”的核心就是保证所有数据偏差的平方和最小。(“平方”的在古时侯的称谓为“二乘”)收集了网上的一个数据,实验最小二乘并用python实现 1 2 3 4 5 6 7 8 9 10 长度(m) 208 152 113 227 137 238 178 104 191 130 宽度(m) 21.6 15.5 10.4转载 2017-10-10 14:10:44 · 813 阅读 · 0 评论 -
机器学习之Boltzmann 机算法
Boltzmann 机也称为模拟退火算法,它是一种无监督网络。该算法和BP算法都是神经网络家族中的核心算法,这两个算法构成了后来深度学习算法的框架基础。该网络最早来源于对退火过程的一种模拟,使用了著名的玻尔兹曼能量函数,因此而得名。该网络的优势在于能够跳出函数的局部最小值,如果迭代次数足够,即可找到函数的近似最大值。它常用于求解路径最优的函数算法,目前应用仍很广泛。转载 2017-10-27 17:56:50 · 2747 阅读 · 0 评论 -
机器学习--归一化
归一化是一种简单的计算方式,即将有量纲的表达式,经过变换,转换为无量纲的表达式,称为标量。归一化是机器学习中的一项基础工作。 归一化有两种方式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。转载 2017-10-19 17:19:40 · 616 阅读 · 0 评论 -
机器学习之自组织特征映射神经网络(SOM)python实现
下面为两种SOM的运行代码,用来分类同样的数据,第一种学习率和聚类半径随着迭代次数的变化而变化,参考机器学习之自组织特征映射神经网络(SOM),同时运行博客点这里的代码,比较运行时间,都设置迭代次数为1000次,分4类,运行时间分为为0(即小于1s)和17s代码1from numpy import *import matplotlib.pyplot as pltimport stringclas转载 2017-10-19 15:09:06 · 12162 阅读 · 25 评论 -
机器学习第一章:python数据处理与可视化
一、数据的导入和内存管理 机器学习一般要处理海量的表格和文本,小的数据集几十MB,大的几TB。本次学习了如何读取文本数据数据表文件的读取:# 配置utf-8输出环境reload(sys)sys.setdefaultencoding('utf-8')#数据文件转矩阵# path: 数据文件路径# delimiter: 文件分隔符def file2matrix(path翻译 2017-09-17 17:14:02 · 355 阅读 · 0 评论 -
机器学习之距离计算
神经网络的输入模式向量的相似性测量可用向量之间的距离来衡量。常用的方法有欧氏距离法和余弦法两种。 (1)欧式距离法 设X,Xi为两向量,其间的欧式距离 d越小,X与Xi越接近,两者相似,当d=0,时,X=Xi,以d=T(常数)为依据,可对输入向量模式进行聚类分析: (2)向量的欧式距离计算:# coding=utf-8from numpy import *from numpy转载 2017-10-18 13:31:17 · 493 阅读 · 0 评论 -
机器学习之自组织特征映射神经网络(SOM)
定义 自组织特征映射神经网络(Self-Organizing Feature Map,也称Kohomen映射),简称为SOM网络,主要用于解决模式识别类的问题。SOM网络属于无监督学习算法,与Kmeans算法相似。所不同的是,SOM网络不需要预先提供聚类数量,类别的数据由网络自动识别出来。它的基本思想是:将距离小的个体集合划分为同一类别,而将距离大的个体集合划分为不同的类别。 2.转载 2017-10-17 14:31:47 · 5998 阅读 · 0 评论 -
sklearn逻辑回归
逻辑回归自己的理解(明天把实例看完在写) 1.对机器学习的认识 引用大牛的观点: 机器学习算法没有所谓的优劣,也没有绝对的高性能,只有在特定场景、数据和特征下更适合的机器学习算法。 2.机器学习应用方法: 应用机器学习,千万不要一上来就试图做到完美,先做一个基本的model出来,再进行后续的分析步骤,一步步提高。所谓后续步骤可能包括『分析model现在的状态(欠/过拟合),分析我们使用的转载 2018-05-23 18:01:41 · 364 阅读 · 0 评论