机器学习
机器学习
大虎牙
一物不知 深以为耻 便求知若渴
展开
-
学习笔记 | 基于文本内容的垃圾短信识别 相关概念
基于文本内容的垃圾短信识别数据预处理文本的向量表示原创 2020-06-02 22:25:38 · 1638 阅读 · 1 评论 -
学习笔记 | 决策树 | 地质灾害易发性预测模型
原创 2020-05-26 18:37:13 · 1445 阅读 · 0 评论 -
学习笔记 | 机器学习 知识点导图 学习框架
原创 2020-05-26 13:27:54 · 186 阅读 · 0 评论 -
学习笔记 | 逻辑回归 对数几率回归
import pandas as pdfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_reportdata = pd.read_csv('LogisticRegression.csv')data_tr, data_te, label_tr,...原创 2020-05-26 13:26:10 · 194 阅读 · 0 评论 -
学习笔记 | 聚类模型的评估指标 | 性能度量
K并不是越大越好,当K过大的时候,导致CP越小,但并不准确。原创 2020-05-25 12:24:11 · 276 阅读 · 0 评论 -
学习笔记 | KMeans聚类 (K均值聚类)
鸢尾花数据聚类from sklearn.datasets import load_irisimport numpy as npiris = load_iris()data = iris.dataprint(data.shape)n = len(data)k = 3dist = np.zeros([n, k+1])# 1、选中心center = data[:k, :]center_new = np.zeros([k, data.shape[1]])while True: ..原创 2020-05-25 12:09:14 · 381 阅读 · 0 评论 -
学习笔记 | 聚类分析 概述、相似性度量
聚类分析01 概述02 相似性度量离散化属性计算相似系数:余弦相似系数更关心两个向量在方向上的异同。原创 2020-05-24 18:03:10 · 1213 阅读 · 0 评论 -
学习笔记 | 线性回归 linear model
from sklearn.linear_model import LinearRegressionclf = LinearRegression()clf.fit([[0, 0], [1, 1], [2, 2]], [0, 1, 2]) # 模型训练'''y = 0.5*x1 + 0.5*x2'''pre = clf.predict([[3, 3]]) # 模型预测clf.coef_clf.intercept_print(pre)输出:[3.]# 波...原创 2020-05-24 17:43:45 · 760 阅读 · 0 评论 -
学习笔记 | 决策树 ID3 信息增益、信息增益率、基尼
决策树01 从女生相亲到决策树02 明天适合打球吗?怎么选择第一个属性,怎么选择第二个属性?节点的选择?03 决策树拆分属性选择?04 代码实践 | 泰坦尼克号生还者预测数据预处理模型构建与预测import pandas as pdfrom sklearn.tree import DecisionTreeClassifier, export_graphvizfrom sklearn.metrics import classification_原创 2020-05-24 16:31:20 · 419 阅读 · 0 评论 -
学习笔记 | 朴素贝叶斯、拉普拉斯修正
朴素贝叶斯01 引例02 贝叶斯定理03 朴素二字从何而来?连续变量需要计算高斯分布的概率值。04 拉普拉斯平滑处理(修正)05 代码实践import numpy as npfrom sklearn.naive_bayes import GaussianNBfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitX = np.array原创 2020-05-24 11:48:39 · 2504 阅读 · 0 评论 -
学习笔记 | 什么是机器学习?
01 机器学习引言02 基本术语原创 2020-05-22 23:53:14 · 95 阅读 · 0 评论 -
学习笔记 | np.meshgrid()的使用
np.meshgrid()的使用举例二维坐标系中,X轴可以取三个值1,2,3, Y轴可以取三个值7,8, 请问可以获得多少个点的坐标 ? 显而易见是6个: (1,7)(2,7)(3,7) (1,8)(2,8)(3,8)import numpy as np# 坐标向量a = np.array([1,2,3])# 坐标向量b = np.array([7,8])# 从坐标向量中返回坐标矩阵# 返回list,有两个元素,第一个元素是X轴的取值,第二个元素是Y轴的取值res = np.mes原创 2020-05-22 18:23:55 · 485 阅读 · 0 评论 -
学习笔记 | np.c_和np.r_的用法
np.c_和np.r_的用法np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等。np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等。1. np.c_的用法import numpy as npa = np.array([[1, 2, 3],[7,8,9]])b=np.array([[4,5,6],[1,2,3]])c=np.c_[a,b]cd= np.array([7,8,9])e=np.array([1, 2, 3])f=np.c_[d,e]f输原创 2020-05-22 17:57:59 · 448 阅读 · 0 评论 -
学习笔记 | 有监督学习 | 多分类:K近邻(K-Nearest Neighber,KNN)
K近邻(K-Nearest Neighber,KNN)K近邻分类的思想就是:对于任意一个新的样本点,我们可以在这M个已知类别标签的样本点中选取K个与其距离最接近的点作为它的最近邻点,然后统计这K个最近邻点的类别标签,采取多数投票表决的方式,即把这K个最近邻点中占绝大多数类别的点所对应的类别拿来当作要预测点的类别。K近邻回归的思想就是:回归问题其实只是稍加变化,即把这K个最近邻训练样本实例xi的输出值yi的平均作为待预测实例xj的值,代码实践这里以scikit-learn自带的Iris数原创 2020-05-22 17:19:47 · 775 阅读 · 0 评论 -
学习笔记 | 核心网KPI异常检测
核心网KPI异常检测数据:01 特征构建算法——生成训练集# -*- coding: utf-8 -*-# Automatically generated code template for feature operation 'time_fiter'import pandas as pdfrom datetime import datetime# Real custom feature operation# args:# data: input pandas datafra原创 2020-05-21 14:44:04 · 2069 阅读 · 1 评论 -
学习笔记 | 特征工程:归一化、高维特征、组合特征、图像数据不足
特征工程01 特征归一化问题 为什么需要对数值类型的特征做归一化?对特征进行归一化处理,使各指标处于同一数值量级,使得不同指标之间具有可比性。将所有的特征都统一到一个大致相同的数值区间内。主要有一下两种。(1) 线性函数归一化(Min-Max Scaling)。它对原始数据进行线性变换,使结果映射到[0,1]的范围,实现对原始数据的等比缩放。02 类别型特征问题 在对数据进行预处理时,应该怎样处理类别型特征?序列编号 Ordinal Encoding独热编码 One-hot En原创 2020-05-21 13:57:11 · 1510 阅读 · 0 评论 -
学习笔记 | 逻辑回归
逻辑回归问题1 逻辑回归相比于线性回归,有何异同?问题2 当使用逻辑回归处理多标签的分类问题时,有哪些常见做法,分别应用于哪些场景,它们之间又有怎样的关系?原创 2020-05-21 13:16:20 · 91 阅读 · 0 评论 -
学习笔记 | 支持向量机SVM、推导
01 支持向量机SVM问题1 在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点在超平面上的投影仍然是线性可分的吗?不可分问题2 是否存在一组参数使SVM训练误差为0?问题3 训练误差为0的SVM分类起一定存在吗?问题4 加入松弛变量的SVM的训练误差可以为0吗?SVM理论希望的是找到一个平面作为超平面,它恰好在两个类中间分开,以它为基准画两个与它平行的平面,让这两个平面分别向两个方向平行移动,即一个向类别X聚集的方向移动,一个向非类别X聚集的方向移动。当这两个平原创 2020-05-21 11:09:26 · 263 阅读 · 0 评论 -
学习笔记 | 欧式距离、曼哈顿距离、余弦距离
01 欧氏距离02 曼哈顿距离曼哈顿距离也叫出租车距离,用来标明两个点在标准坐标系上的绝对轴距总和。被称为出租车距离是因为在像纽约曼哈顿区这样的地区有很多由横平竖直的街道所切成的街区(Block),出租车司机计算从一个位置到另一个位置的距离,通常直接用街区的两个坐标分别相减,再相加,这个结果就是他即将开车通过的街区数量。曼哈顿距离中的距离计算:从公式定义上看,曼哈顿距离一定是一个非负数,距离最小的情况就是两个点重合,距离为0,这一点和欧氏距离一样。03 余弦距离...原创 2020-05-20 22:18:38 · 850 阅读 · 0 评论 -
学习笔记 | 超参数调优
超参数调优问题:超参数有哪些调优方法?原创 2020-05-20 21:17:08 · 240 阅读 · 0 评论 -
学习笔记 | 模型评估的方法
模型评估的方法问题1 在模型评估过程中,有哪些主要的验证方法,它们的优缺点是什么?Holdout检验交叉检验自助法问题2 在自助法的采样过程中,对n个样本进行n次自助抽样,当n趋于无穷大时,最终有多少数据从未被选择过?...原创 2020-05-20 19:26:35 · 324 阅读 · 0 评论 -
学习笔记 | 过拟合、欠拟合
问题1 在模型评估过程中,过拟合和欠拟合是指什么现象?过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好的情况。问题2 能否说出几种降低过拟合和欠拟合风险的方法?降低过拟合风险的方法降低欠拟合风险的方法...原创 2020-05-20 18:56:19 · 156 阅读 · 0 评论 -
性能度量 | 模型评估指标的局限性
01 评估指标的局限性问题1 准确率的局限性当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要的因素。举例:当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平均)作为模型评估的指标。模型的好坏,标准答案其实也不限于指标的选择,即使评估指标选择对了,仍会存在模型过拟合或欠拟合、测试集和训练集划为不合理、线下评估与线上测试的样本分布存在差异等一系列问题,但评估指标的选择是最容易被发现,也是最原创 2020-05-19 15:27:40 · 668 阅读 · 0 评论 -
性能度量 | 分类模型的评估指标
分类模型的评估指标1.准确率(accuracy)准确率就是用来衡量模型对数据集中样本预测正确的比例,即等于所有预测正确的样本数目与所有参加预测的样本总数目的比。例3 准确率计算from sklearn.metrics import accuracy_scorey_true = [1,0,2,0,1,0,2,0,0,2]y_pred = [1,0,1,0,0,0,2,0,2,1]accuracy1 = accuracy_score(y_true,y_pred,normalize=True)原创 2020-05-15 23:53:48 · 942 阅读 · 0 评论 -
性能度量 | 回归模型的评估指标
回归模型的评估指标1.1 平均绝对误差 MAE(Mean_absolute_error)平均绝对误差即预测点与真实点之间距离之差的绝对值的平均值,又被称为 L1范数损失。from sklearn.metrics import mean_absolute_errory_true = [[0.5,1],[-1,1],[7,-6]]y_pred = [[0,2],[-1,2],[8,-5]]mean_absolute_error(y_true,y_pred)输出:1.2 均方误差 MSE原创 2020-05-15 22:41:34 · 534 阅读 · 0 评论 -
学习笔记 | 条件概率、联合概率、全概率公式、贝叶斯公式
定义边缘概率(又称先验概率):某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization)。比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)。联合概率表示两个事件共同发生的概率。A与B的联合概率表示为P(A∩B...原创 2020-05-08 10:35:34 · 3458 阅读 · 0 评论 -
学习笔记 | 描述集中趋势
一.描述性统计量均值(描述集中趋势),中位数,众数标准差,方差(描述分散趋势)标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。方差是标准差的平方;分布数据的分布,它描述了各个值出现的频繁程度;表示分布最常用的方法是直方图;频数指的是数据集中一个值出现的次数;概率质量函数PMF这个函数是值到其概率的映射;概率是频数除以样本数...原创 2019-10-13 13:23:45 · 1941 阅读 · 0 评论 -
python之机器学习工具包
python应用于机器学习的开源工具包numpy和scipy提供一些高级的数学运算机制非常高效的向量和矩阵运算功能scipy是在numpy的基础上构建的更为强大,应用领域也更为广泛的科学计算包。scipy需要依赖numpy的支持进行安装和运行import numpy as np matplotlib绘图工具包,解决数据分析后的可视化问题import matplo...原创 2019-10-13 12:06:33 · 333 阅读 · 0 评论 -
深度学习Day2(神经网络的基础编程)
02深度学习笔记 神经网络的基础编程Basics of Neural Network programing接触一些新的专业术语 学会如何处理训练集前向暂停forward pause 前向传播forward propagation反向暂停backward pause 反向传播backward propagation(在判别学习中使用它)逻辑回归logistic regression是一个用于二原创 2017-10-12 13:13:49 · 268 阅读 · 0 评论 -
深度学习Day1
01深度学习笔记deep learning神经网络的基础大致了解了一下学习的方向,深度学习的介绍,基础的专业术语,和未来学习规划。1.Neural Networks and Deep Learning 学习如何建立深度神经网络并且使它奏效 识别Cat 严密地构建神经网络如何真正让它表现良好Week1:Introduction Week2:Basics of Netural programmi原创 2017-10-11 16:39:01 · 269 阅读 · 0 评论