Machine Learning
Machine Learning
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
杨鑫newlfe
算法就是我的灵魂
展开
-
准确率、召回率、F1值的思考
简述概念准确率(Accuracy)准确率(ACC), 所有预测正确的占总样本的比重。精确率/查准率(Precision)精确率(P):精确率/查准率,表示正确预测为正的占全部预测为正的比例。对某一类别而言为正确预测为该类别的样本数与预测为该类别的总样本数之比。召回率(Recall)召回率/查全率,表示正确预测为正的占全部实际为正的比例。对某一类别而言为正确预测为该类别的样本数与该类别的总样本数之比。F1值F1值:F1值为精确率和召回率的调和平均数,值越大越好。原创 2021-07-19 23:07:56 · 4391 阅读 · 0 评论 -
准确率、精确率、召回率、F1(F-Measure)都是什么?
机器学习ML、自然语言处理NLP、信息检索IR等领域,评估(Evaluation)是一个必要的工作,而其评论价值指标往往有如下几点: 准确率 Accuracy; 精准率 Precision; 召回率 Recal; F1-Measure; TP: True Positive 把正的判断为正的数目True Positive,判断正确,且判为了正,即正的预测为正的; FN:False Negative 把正的错判为负的数..原创 2020-11-10 23:41:43 · 973 阅读 · 0 评论 -
LSTM神经网络实战 --- Python实现LSTM预测销量
预测模型,这里使用LSTM来进行预测,利用Keras使用内置的Tensorflow。使用的数据为XXXX的销量数据。使用特征是日期、星期、是否是节假日、销量;预测的目标特征是销量;这个模型由于我设置预测的参数和输入的数据目标列是1,所以每次预测结果是一个值。其实各模块如下:模型中使用参数列表说明如下:"""模型参数说明:path=path, 数...原创 2019-11-29 18:55:15 · 8504 阅读 · 17 评论 -
理解评价指标 --- Accuacy、Recall、Precision
从论文中找到一张图:上图表示一个二分类的混淆矩阵(多分类同理):True Positive(TP): 预测为正例,实际为正例False Positive(FP): 预测为正例,实际为负例True Negative(TN): 预测为负例,实际为负例False Negative(FN):预测为负例,实际为正例从上面的公式可以看出...原创 2019-10-16 11:29:53 · 947 阅读 · 0 评论 -
理解机器学习实战 --- FP-Growth算法高效发现频繁项集
FP-growth算法介绍: 一种非常好的发现频繁项集的算法 基于Apriori算法构建,但是数据结构不同,使用叫做FP树的数据结构来存储集合。 FP-grouw算法原理: 基于数据集构造FP树 支持度:某一项类别出现的次数,可以理解为出现的频率。 非频繁项:某一项出现的次数小于一定次数,我们称之为非频繁项集。 步骤一:1.遍历所有...原创 2019-05-30 10:47:12 · 502 阅读 · 0 评论 -
Python实现FP-Growth高效发现频繁项集
# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'"""Frequent Patten """class FPGrowth(object): def __init__(self, name_value, num0_ccur, parent_node): self.name = name_value ...原创 2019-05-31 15:22:46 · 816 阅读 · 0 评论 -
机器学习实战 --- 利用PCA简化数据
降维技术— 场景: 我们正在通过电视观看体育比赛,在电视的显示器上有一个球。 显示器大概包含100W个像素点,而球则可能是由较少的像素点组成,例如说一千个像素点。 人们在实时的将显示器上的百万像素转化成为一个三维图形,该图像就给出运动场上球的位置。 在这个过程中,人们已经将百万像素点的数据,降维到三维。这个过程就称为降维(dimensionality ...原创 2019-05-31 18:02:14 · 304 阅读 · 0 评论 -
Python实现PCA简化数据
# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'from numpy import *import matplotlib.pyplot as pltclass PCA(object): def load_data_set(self, file_name, delim='\t'): fr = open(file...原创 2019-05-31 21:26:55 · 302 阅读 · 0 评论 -
机器学习实战 --- 利用SVD简化数据
SVD概述:奇异值分解(SVD, Singular Value Decomposition): 提取信息的一种方法,可以把SVD看成是从噪声中抽取相关的特征。从生物信息学到金融学, SVD是是提取信息的巨大工具。SVD场景: 信息检索 - 隐形语义索引(Lstent Semantic Indexing, LSI)或隐形语义分析(LSA)。隐形语义索引...原创 2019-06-03 11:01:37 · 461 阅读 · 0 评论 -
Python实现Apriori算法
# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'from numpy import *from votesmart import votesmartclass Apriori(object): def load_data_set(self): return [[1, 3, 4], [2, 3, 5], [1,...原创 2019-05-26 17:15:18 · 1809 阅读 · 0 评论 -
机器学习实战学习笔记 --- Apriori算法
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式: 频繁项集 (frequent item sets):经常出现在一块的物品集合。 关联规则(associational rules):暗示两种物品之间可能存在很强的关系。 相关术语: 关联分析(关联规则学习):从大规模数据集中寻找物品之间的隐含关系被称作关联分析(associati analy...原创 2019-04-16 21:42:33 · 439 阅读 · 0 评论 -
Python3实现KMeans聚类算法
# -*- coding:utf-8 -*-__aithor__ = 'yangxin_ryan'from numpy import *from matplotlib import pyplot as pltclass K_Means(object): def load_data_set(self, file_name): data_set = [] ...原创 2019-04-10 01:19:32 · 1006 阅读 · 0 评论 -
机器学习实战学习笔记 --- 二分K-Means聚类算法
K -Means聚类算法的缺陷在K-Means的函数测试中,可能会偶尔陷入局部最小值(局部最优的结果,但不是全局最优的结果)解决方案:为了克服K-Means算法收敛于局部最小值的问题,有一个好的解决方案是二分K-Mean(二分K均值 bisecting K-Means)的算法原理:该算法首选所有点作为一个簇,然后将该点一份为二。之后选择一个簇继续划分,选择哪一个簇进行...原创 2019-03-28 21:23:15 · 832 阅读 · 0 评论 -
机器学习实战学习笔记 ---- K-Means(K-均值)聚类算法
聚类是一种无监督的学习,它将相似的对象归到一个簇中,将不相似的对象归到不同的簇中。相似这一概念取决于所选择的相似度计算方式。K-Means是发现给定数据集的K个簇的聚类算法,之所以称之为 “K-均” 值是因为它可以发现K个不同的簇,且每个簇的中心采用的所含值的均值计算而成。簇个数K是用户指定的,每一个簇通过其质心(centroid),即簇中所有点的中心来描述。聚类与分类算法的最大区...原创 2019-03-28 20:25:26 · 1676 阅读 · 0 评论 -
python3实现树回归
# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'from numpy import *"""树回归"""class RegTees(object): def load_data_set(self, file_name): data_mat = [] fr = open(file_name)...原创 2019-03-28 16:05:45 · 389 阅读 · 0 评论 -
机器学习实战学习笔记 --- 树回归
树的构建算法 CART(Classification And Regression Trees, 分类回归树)的树构建算法。该算法可以用来分类也可以用来回归。树回归 原理原理概述为了构建以分段常数为叶节点的树,需要度量出数据的一致性。首先计算所有数据的均值,然后计算每条数据的值到均值的差值。为了对正负差值同等看待,一般用绝对值或者平方值来代替上述差值。方差是平...原创 2019-03-28 10:56:37 · 317 阅读 · 0 评论 -
机器学习之推荐系统(协同过滤)学习笔记
推荐系统 概述 推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定购买什么产品,模拟销售人员帮助客户完成购买过程。 推荐系统 场景 1.Amazon 会根据顾客的购买的历史向他们推荐相似的物品。 2.Netfix会向其用户推荐电影。 3.新闻网站会对用户推荐新闻频道。 推荐系统要点 基...原创 2019-06-03 20:12:11 · 666 阅读 · 0 评论 -
Python实现SVD算法
# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'from numpy import linalg as lafrom numpy import *class SVD(object): def load_ex_data3(self): return [[2, 0, 0, 4, 4, 0, 0, 0, 0, 0,...原创 2019-06-10 12:20:47 · 2743 阅读 · 0 评论 -
机器学习西瓜书--- 绪论学习笔记
模型与模式的区别 1.“模型”泛指从数据中学习到的结果,有文献用“模型”指全局性结果(例如一颗决策树)。2.“模式”指局部性结果(例如一条规则)。 自顶向下与自底向上的区别 1.“自顶向下”是一般到特殊的过程。2.“自底向上”是特殊到一般的过程。 版本空间 每一个样例就是一个版本 偏好/偏好归纳 机器学...原创 2019-06-26 09:52:29 · 883 阅读 · 0 评论 -
深度学习学习笔记 --- 动量momentum
一、动量momentum的由来 训练网络时,通常先对网络的初始值按照某种分布进行初始化,如:高斯分布。初始化权值操作对最终的网络性能影响比较大,合适的网络初始权值操作能够使损失函数在训练过程中收敛速度快,从而获得更好的优化结果。但是按照分布随机初始化网络权值时,存在一些不确定的因素,并不能保证每一次初始化操作都能使得网络的初始值处在一个合理的状态。不恰当的初始权值可能使网络的损失...原创 2019-10-07 14:24:17 · 4861 阅读 · 0 评论 -
Keras学习笔记 --- verbose
verbose:日志显示 verbose = 0 为不在标准输出流输出日志信息 verbose = 1 为输出进度条记录 verbose = 2 为每个epoch输出一行记录注意: 默认为 1verbose = 0,在控制台没有任何输出 verbose = 1 :显示进度条 verbose =2:为每个epoch输出一行记录...原创 2019-09-23 02:35:02 · 464 阅读 · 0 评论 -
Keras学习笔记 --- model.compile()
model.compile (optimizer=Adam(lr=1e-4), loss=’binary_crossentropy’, metrics=[‘accuracy’])optimizer:优化器,如Adam、sdg; loss:计算损失,这里用的是交叉熵损失,例如mse; metrics: 列表,包含评估模型在训练和测试时的性能的指标,典型用法是metrics=[‘accurac...原创 2019-09-23 02:33:34 · 5941 阅读 · 0 评论 -
机器学习模型评估指标汇总
在使用机器学习算法过程中,针对不同的问题需要用不同的模型评估标准,这里做一个汇总。一、分类算法: 混淆矩阵 寻小矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息,矩阵中的每一行代表真实实例的预测类别,每一列代表实例的真实类别。真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive ,...原创 2019-09-21 17:30:00 · 336 阅读 · 0 评论 -
Keras的主要模块介绍
1.优化器:优化器是调整每一个节点权值的方法,看一个例子 model = Sequential() model.add(Dense(64, init='uniform', input_dim=10)) model.add(Activation('tanh')) model.add(Activation('softmax')) sgd = SGD(lr...原创 2019-09-21 16:14:56 · 565 阅读 · 0 评论 -
统计学基础学习笔记
— 基础部分1.为什么要学统计学统计学: 是一门收集、整理和分析统计数据的方法科学。 其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识。 统计学研究随机现象(事前不可预言),以推断为特征,”由部分推及全体“的思想贯穿于统计学的始终。 a.如果你想在大数据,机器学习领域有所建树。b.如果你想在经济学方面有所发展...原创 2019-09-14 22:15:14 · 425 阅读 · 0 评论 -
机器学习学习笔记 --- 神经网络网络之感知器Perceptron
神经管道内的操作: W = [W1,…Wm]X = [X1,…Xm]Z = W1 * X1 + W2 * X2 + … + Wm*Xm 激活函数 - 单元步调函数 output(Z) = {1 if Z >= Y, -1 otherwise} 一些数据运算概念介绍 Z = W0X0 +… 向量的点乘(积)...原创 2019-09-05 11:08:54 · 223 阅读 · 0 评论 -
Python3实现感知器Perceptron分类算法
# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapclass Perceptron(object): ...原创 2019-09-05 10:38:58 · 857 阅读 · 0 评论 -
机器学习学习笔记 --- 人工神经网络算法过程、设计问题、特点
* 感知器学习算法过程 1. 令D={(x,y)|i = 1,2,3,..N是训练样例集合; 2. 用随机值初始化权值向量W^((0)); 3. Repeat 1. For 每个勋两样例(xi, yi) 属于 D do 1. 计算预测输出yi^(k) 2. For 每个权值 Wj do ...原创 2019-09-02 01:55:29 · 473 阅读 · 0 评论 -
python3.7 mac 离线安装tensorflow
1.手动下载:https://storage.googleapis.com/tensorflow/mac/cpu/tensorflow-1.3.0-py3-none-any.whl2.安装pip install tensorxxxxxxxx原创 2019-08-22 16:15:11 · 808 阅读 · 0 评论 -
TypeError: while_loop() got an unexpected keyword argument 'maximum_iterations'
重新安装keras因为我的CUDA版本为CUDA8.0,所以tensorflow版本有限制,只能用1.4.0以下的版本所以tensorflow-gpu=1.4.0之前keras版本太高了,所以才会报以上错误更新keras版本后,错误解决pip install keras==2.1.2...原创 2019-08-22 15:06:20 · 571 阅读 · 0 评论 -
机器学习西瓜书 --- 评估方法或数据集划分方法
评估的方法 留出法 hold-out 直接将数据集划分为两个互斥的集合,其中一个集合留作训练集合S,另一个作为测试集合T。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的评估。 分层采样 保留类别的采样称为分层采样。 交叉验证法 cross validati...原创 2019-06-26 10:22:47 · 1048 阅读 · 0 评论 -
机器学习实战笔记 --- Python实现线性回归
# -*- codingutf-8 -*-__author__ = 'yangxin_ryan'from numpy import *import matplotlib.pylab as pltclass Regression(object): def load_data_set(self, file_name): num_feat = len(open(f...原创 2019-03-19 01:08:11 · 298 阅读 · 0 评论 -
机器学习实战 --- 局部加权线性回归 工作原理
读入数据,将数据特征X 、特征标签y存储在矩阵X,y中利用高斯核构建一个权重矩阵W,对预测点附近的点施加权重验证X^TWX矩阵是否可逆使用最小二乘法求的回归系数 回归系数w的最佳估计...原创 2019-03-12 12:41:49 · 615 阅读 · 0 评论 -
朴素贝叶斯中朴素是什么含义?
朴素贝叶斯中的“朴素”二字突出了这个算法的简易性。朴素贝叶斯的简易性表现该算法基于一个很朴素的假设:所有的变量都是相互独立的,假设各特征之间相互独立,各特征属性是条件独立的。 就这一句话就理解了吧。。。...原创 2018-11-14 20:00:39 · 14044 阅读 · 1 评论 -
朴素贝叶斯之条件概率
计算 P(white) 或者 P(black) ,如果事先我们知道石头所在桶的信息是会改变结果的。这就是所谓的条件概率(conditional probablity)。假定计算的是从 B 桶取到白色石头的概率,这个概率可以记作 P(white|bucketB) ,我们称之为“在已知石头出自 B 桶的条件下,取出白色石头的概率”。很容易得到,P(white|bucketA) 值为 2/4 ,P(wh...原创 2018-11-14 19:55:36 · 2379 阅读 · 0 评论 -
Python实现DescionTree决策树 --- 选择切分数据集的最佳特征
# 选择切分数据集的最佳特征 def choose_best_feature_to_split(self, data_set): num_features = len(data_set[0]) - 1 # 计算信息熵 base_entropy = self.calc_shannon_ent(data_set) #best_i...原创 2018-11-07 21:09:48 · 1999 阅读 · 0 评论 -
Python实现DescionTree决策树 --- 划分数据集
""" 划分数据集 [[1, 1, ‘yes’], [1, 1, ‘yes’], [1, 0, ‘no’], [0, 1, ‘no’], [0, 1, ‘no’]] 这个是我们的数据集。 如果我们选取第一个特征值也就是需不需要浮到水面上才能生存来划分我们的数据,这里生物有两种可能,1就是需要,0就是不需要。那么第一个特征的取值就是两种。 如果我们按照第一个特征的...原创 2018-11-07 20:55:05 · 1253 阅读 · 0 评论 -
Python实现决策树应用之判断隐形眼镜的类型
代码模块一、DecisionTreePlot# -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'import matplotlib.pyplot as plt"""定义文本框 和 箭头格式 【 sawtooth 波浪方框, round4 矩形方框 , fc表示字体颜色的深浅 0.1~0.9 依次变浅,没错是变浅】"""decisi...原创 2018-11-10 15:09:19 · 590 阅读 · 0 评论 -
Python实现决策树应用之判断鱼类与非鱼类
代码模块一:DecisionTreePlot # -*- coding:utf-8 -*-__author__ = 'yangxin_ryan'import matplotlib.pyplot as plt"""定义文本框 和 箭头格式 【 sawtooth 波浪方框, round4 矩形方框 , fc表示字体颜色的深浅 0.1~0.9 依次变浅,没错是变浅】"""deci...原创 2018-11-10 15:07:11 · 1491 阅读 · 0 评论 -
机器学习学习笔记 --- 标称型数据和数值型数据
【标称型数据和数值型数据】监督学习一般使用两种类型的目标变量:标称型和数值型标称型:一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果(一般用于分类)数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23这种值(一般用于回归分析)监督学习中的分类方法输出是标称型数据。监督学习中的回归方法输出是数值型数据。 【标称属性和数值属性】属性,表...原创 2018-10-18 10:25:45 · 5023 阅读 · 0 评论