机器学习
小浩子7号
这个作者很懒,什么都没留下…
展开
-
机器学习--逻辑回归
逻辑回归:用线性回归式子作为逻辑回归的输入,用来解决二分类问题想把线性回归 用来做二分类问题,要用sigmoid函数小于0.5的概率归为0,大于0.5的概率归位1二、用逻辑回归做癌症二分类问题import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom s原创 2021-04-24 16:22:14 · 181 阅读 · 0 评论 -
机器学习--模型的保存和加载
线性回归:线性回归是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解损失函数最小时的参数w和b。通长我们可以表达成如下公式:y^为预测值,自变量x和因变量y是已知的,而我们想实现的是预测新增一个x,其对应的y是多少。因此,为了构建这个函数关系,目标是通过已知数据点,求解线性模型中w和b两个参数。...原创 2021-04-24 11:06:46 · 212 阅读 · 0 评论 -
机器学习-随机森林(集成学习方法)
集成学习:建立几个模型组合来解决某一预测问题,生成多个分类器。随机森林:多个决策树的分类器,输出结果选择占比最大的结果单个树建立过程:1.随机在N个样本种选择一个样本,重复N次,样本可能重复。 2.随机在M个特征中选出m个特征假设10棵决策树,样本、特征大多不一样二、决策树代码import pandas as pd #数据分析import numpy as np #科学计算from sklearn.fea...原创 2021-04-22 16:07:28 · 373 阅读 · 1 评论 -
机器学习-决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。先引入信息熵的概念信息是个很抽象的概念。..原创 2021-04-22 15:29:20 · 108 阅读 · 0 评论 -
机器学习-交叉验证,模型选择与调优
1.交叉验证:让评估 模型更加准确可信2.网格参数通常情况下,很多参数需要手动指定,这种叫超参数。每组超参数都采用交叉验证来评估,最终选择最优参数组合来建立模型。如果有多组超参数,则需要进行两两相互验证用交叉验证、网格搜索,找到KNN的最优模型参数from sklearn.preprocessing import StandardScalerfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.m.原创 2021-04-18 22:42:11 · 2367 阅读 · 0 评论 -
机器学习--评估模型
混淆矩阵概念:在分类任务中,预测结果与正确标记之间存在四种不同的组合,构成混淆矩阵。其中TP:true positiveFN:false negativeFP:false positiveTN:true negative评估标准:准确率、精确率、召回率、假正率、F1-score1.准确率: 预测正确的个数/整体的个数2.精确率:预测结果为正例样本中,真实为正例的比例。TP/(FP+TP)3.召回率:真实样本中,预测结果为正正例的比例(查的全,对正样本的区分能力)。T.原创 2021-04-18 21:32:45 · 82 阅读 · 0 评论 -
机器学习--朴素贝叶斯
朴素贝叶斯模型(Naive Bayesian Model,NBM)朴素指的是 条件独立,即特征之间相互独立贝叶斯公式需要用到 条件概率 和全概率公式的推导原创 2021-04-18 15:48:47 · 141 阅读 · 0 评论 -
K近邻算法 KNN 入住预测位置
K最近邻(k-Nearest Neighbor,KNN)分类算法,最简单的机器学习算法之一定义:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本种大多数属于某一个类别,则该样本也属于这个类别。用欧氏距离求两点之间的距离:需要做标准化处理,下载数据集:https://www.kaggle.com/c/facebook-v-predicting-check-ins与预测有关系的是: xy坐标 精度 (时间戳(有可能当时周围酒店住满了,需要换下一个位置),日..原创 2021-04-11 12:46:06 · 322 阅读 · 0 评论 -
机器学习--sklearn数据集
1.1、获取sklearn的鸢尾花数据数据集1.2、分隔skelarn的数据集from sklearn.datasets import load_iris #导入鸢尾花数据集from sklearn.model_selection import train_test_split #将数据集按比列分隔为数据集和训练集li = load_iris()#返回的格式,训练集 train x_train y_train 测试集 x_test y_testx_train, x原创 2021-04-10 11:37:18 · 230 阅读 · 0 评论 -
机器学习-特征选择
数据降维1.特征选择2.主成分分析特征选择的原因:冗余:部分特征的相关度高,容易消耗计算性能 噪声:部分特征对预测结果有影响1.1特征选择方法:Filter(过滤式)variance Threshold 方差选择: 指定方差大小,比如删除低方差的特征,因为这样的特征数据波动小,无参考性用VarianceThreshold做特征抽取from sklearn.feature_selection import Var...原创 2021-04-09 19:34:59 · 256 阅读 · 0 评论 -
机器学习-特征预处理
sklearn预处理APIsklearn.preprocessing数字型数据:标准缩放 1.归一化 2.标准化类别型数据:one-hot编码时间类型;时间划分一、归一化将原始数据进行变换,数据映射到默认【0,1】之间,为了让某一特征不会对结果造成太大影响归一化的缺点:如果有异常值,将对最大值最小值造成影响from sklearn.preprocessing import MinMa...原创 2021-04-09 18:40:00 · 99 阅读 · 0 评论 -
对字典数据、文本进行特征抽取
对字典数据进行特征抽取流程1.实例化2.调用函数from sklearn.feature_extraction import DictVectorizerdef dictvec(): """ 字典数据抽取 :return: """ dict = DictVectorizer(sparse=False) #实例化 data = dict.fit_transform([ {'city':'原创 2021-04-08 15:13:24 · 400 阅读 · 0 评论 -
机器学习简单介绍
1.什么是机器学习:1.1学习的定义 近代学习是心理学的一个术语。它有广义和狭义之分。广义的学习是指人和动物在生活过程中获得个体经验的过程,是动物和人类生活中的普遍现象。如动物园里的象学会吹口琴、海狮和鲸鱼学会顶球、熊学会合掌拜谢等。狭义的学习指的是学生在学校里的学习。 1.2维基百科对于机器学习的定义 机器学习有下面几种定义: 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。 机器学习是对能通过经验自动改进的计算机算法的研究。 机器学原创 2021-03-09 15:21:17 · 767 阅读 · 0 评论