机器学习
MuNian123
这个作者很懒,什么都没留下…
展开
-
数据降维算法——主成分分析
数据降维数据降维在机器学习中非常有用,可以用来舍弃数据中一些区分度较小的特征,转化数据的观察视角,使其在更少量的特征维度上也有较好的表现。数据降维也可以用在将高维数据可视化的操作中,这都是不可或缺的重要算法,PCAPCA(Principal Components Analysis)主成分分析法,是一种常用的数据降维算法。PCA的主要思路,是选取数据特征中一些较低维度的空间,让数据在...原创 2020-04-16 14:53:53 · 1021 阅读 · 0 评论 -
分类算法之k-近邻
k-近邻算法采用测量不同特征值之间的距离来进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高使用数据范围:数值型和标称型一个例子弄懂k-近邻电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作片和爱情片。动作片有哪些公共的特征?那么爱情片又存在哪些明显的差别呢?我们发现动作片中打斗镜头的次数较多,而爱情片中接吻镜头相...原创 2020-03-19 14:13:41 · 202 阅读 · 0 评论 -
sklearn数据集与机器学习组成
机器学习组成:模型、策略、优化《统计机器学习》中指出:机器学习=模型+策略+算法。其实机器学习可以表示为:Learning= Representation+Evalution+Optimization。我们就可以将这样的表示和李航老师的说法对应起来。机器学习主要是由三部分组成,即:表示(模型)、评价(策略)和优化(算法)。表示(或者称为:模型):Representation表示主要做的...原创 2020-03-19 14:07:19 · 395 阅读 · 0 评论 -
数据的来源与类型
大部分的数据都来自已有的数据库,如果没有的话也可以交给很多爬虫工程师去采集,来提供。也可以来自平时的记录,反正数据无处不在,大都是可用的。数据的类型按照机器学习的数据分类我们可以将数据分成:标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类) 数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于...原创 2020-03-19 14:01:57 · 2150 阅读 · 0 评论 -
Scikit-learn与特征工程
“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据,那么需要进行一些特征处理,特征的缩放等等,满足训练数据的要求。我们将初次接触到Scikit-learn这个机器学习库的使用Scikit-learnPython语言的机器学习工具 所有人都适用,可...原创 2020-03-19 14:00:34 · 185 阅读 · 0 评论 -
什么是机器学习
机器学习是人工智能的一个分支。人工智能的研究是从以“推理”为重点到以“知识”为重点,再到以“学习”为重点,一条自然、清晰的脉络。机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习算法是一类从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测的算法为什么需要机器学习21世纪机器学习又一次被人们关注,而这些关注的背后是因为整个环境的改变,我们的数据量...原创 2020-03-19 13:56:02 · 279 阅读 · 0 评论 -
Python机器学习零基础入门 -- 骨科患者的生物力学特征分析处理
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# 列出输入目录中的文件import warningsfrom subprocess import check_output# 忽略警告,warnings.filterwarnings('ignore')...原创 2019-07-17 15:11:23 · 892 阅读 · 0 评论 -
视频游戏销售数据可视化
#!/usr/bin/env python# -*- coding: utf-8 -*-# File : Video_Game_Sales.py# Author: MuNian# Date : 2019/7/19import numpy as npimport pandas as pdfrom subprocess import check_outputdata =...原创 2019-07-19 15:27:53 · 828 阅读 · 0 评论 -
机器学习之K-Means实战与调优
K-Means类主要参数KMeans类的主要参数有:1) n_clusters: 即k值,一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。2)max_iter: 最大的迭代次数,一般如果是凸数据集的话可以不管这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。3)n_init:用不同的初始化质心运行算法的次数...原创 2019-07-16 21:44:07 · 868 阅读 · 0 评论 -
Python机器学习零基础入门 -- Pima印第安人糖尿病发病数据集统计分析
查看对应的版本# 下载和安装Python和SciPy# Python versionimport sysprint('Python: {}'.format(sys.version))# scipyimport scipyprint('scipy: {}'.format(scipy.__version__))# numpyimport numpyprint('numpy: {...原创 2019-07-16 21:41:24 · 3885 阅读 · 2 评论 -
美国警方致命枪击案数据可视化分析 下
percent_over_25_completed_highSchool.percent_completed_hs.replace(['-'],0.0,inplace = True)percent_over_25_completed_highSchool.percent_completed_hs = percent_over_25_completed_highSchool.percent_co...原创 2019-07-18 19:39:31 · 1210 阅读 · 0 评论 -
美国警方致命枪击案数据可视化分析 上
import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)import seaborn as snsimport matplotlib.pyplot as pltfrom collections import Counter# 输入数...原创 2019-07-18 19:38:48 · 1203 阅读 · 0 评论 -
Python机器学习零基础入门 -- 骨科患者的生物力学特征分析处理下
# 监督式学习# 探索性数据分析'''监督式学习我们将学习线性回归和逻辑回归这个骨科患者的数据不适合回归,所以我只使用了sacral_slope和pelvic_incidence of abnormal这两个特征我认为特征是pelvic_incidence,目标是sacral_slope让我们看一下散点图,以便更好地理解它的形状(-1,1):如果您不使用它形状的x或y becaom...原创 2019-07-18 13:40:17 · 809 阅读 · 0 评论 -
用Python实现机器学习算法——感知器算法
给定: 数据集 是d-维向量 是一个目标变量,它是一个标量 感知器可以理解为一个非常简单的神经网络: 它有一个实值加权向量 它有一个实值偏置量 b 它使用 Heaviside step 函数作为其激活函数 感知器的训练可以使用梯度下降法,训练算法有不同的步骤。首先(在步骤0中),模型的参数将被初始化。在达到指定训...原创 2019-06-25 13:30:49 · 1161 阅读 · 0 评论 -
用Python实现机器学习算法——Softmax 回归算法
Softmax 回归算法,又称为多项式或多类别的 Logistic 回归算法。给定: 数据集 是d-维向量 对应于的目标变量,例如对于K=3分类问题, Softmax 回归模型有以下几个特点: 对于每个类别,都存在一个独立的、实值加权向量 这个权重向量通常作为权重矩阵中的行。 对于每个类别,都存在一个独立的、实值偏置量b ...原创 2019-06-25 13:31:36 · 4621 阅读 · 0 评论 -
用Python实现机器学习算法—— K均值聚类算法
算法原理\1. 初始化聚类中心,或者在输入数据范围内随机选择,或者使用一些现有的训练样本(推荐)\2. 直到收敛 将每个数据点分配到最近的聚类。点与聚类中心之间的距离是通过欧几里德距离测量得到的。 通过将聚类中心的当前估计值设置为属于该聚类的所有实例的平均值,来更新它们的当前估计值。 目标函数聚类算法的目标函数试图找到聚类中心,以便数据将划分到相应...原创 2019-06-26 13:44:19 · 661 阅读 · 0 评论 -
python机器学习案例系列——关联分析(Apriori、FP-growth)
关联分析的基本概念关联分析(Association Analysis):在大规模数据集中寻找有趣的关系。频繁项集(Frequent Item Sets):经常出现在一块的物品的集合,即包含0个或者多个项的集合称为项集。支持度(Support):数据集中包含该项集的记录所占的比例,是针对项集来说的。置信度(Confidence):出现某些物品时,另外一些物品必定出现的概率,针对规则而...原创 2019-06-26 13:48:26 · 6627 阅读 · 0 评论 -
Jupyter Notebook 快速入门
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。在本文中,我们将介绍 Jupyter notebook 的主要特性,以及为什么对于希望编写漂亮的交互式文档的人来说是一个强大工具。安装$ pip install jupyter运行$ jupyter notebook运行上面的命令之后,...原创 2019-06-24 12:38:40 · 1286 阅读 · 0 评论 -
12种降维技术的全面指南
介绍你曾经做过超过一千个特性的数据集吗?那超过50000个特征的呢?我有,让我告诉你,这是一项非常具有挑战性的任务,特别是如果你不知道从哪里开始!拥有大量的变量既是一种恩惠又是一种诅咒。我们有大量的数据用于分析,但由于大小而具有挑战性。在微观层面上分析每一个变量是不可行的。我们可能需要花上几天或几个月的时间来进行任何有意义的分析,我们将损失大量的时间和金钱来做生意。更不用说这将需要多少计算...原创 2019-06-24 12:50:54 · 5382 阅读 · 0 评论 -
K-近邻回归算法的实用介绍
介绍在我所遇到的所有机器学习算法中,KNN很容易被选择。尽管它很简单,但它在某些任务上被证明是非常有效的(如本文中所见)。甚至更好?它可以用于分类和回归问题!然而,它更广泛地用于分类问题。我很少看到KNN在任何回归任务上被实现。我的目的是说明和强调KNN在目标变量本质上是连续的时,如何同样有效。在本文中,我们将首先理解KNN算法背后的直觉,看看计算点之间距离的不同方法,然后最后在大...原创 2019-06-24 13:22:46 · 923 阅读 · 0 评论 -
随机森林
一、什么是随机森林?作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对随机森林的...原创 2019-06-24 13:25:26 · 629 阅读 · 0 评论 -
用Python实现机器学习算法——线性回归算法
Python 被称为是最接近 AI 的语言。最近一位名叫Anna-Lena Popkes(德国波恩大学计算机科学专业的研究生,主要关注机器学习和神经网络。)的小姐姐在GitHub上分享了自己如何使用Python(3.6及以上版本)实现7种机器学习算法的笔记,并附有完整代码。所有这些算法的实现都没有使用其他机器学习库。这份笔记可以帮大家对算法以及其底层结构有个基本的了解,但并不是提供最有效的实现。...原创 2019-06-24 13:51:19 · 1389 阅读 · 0 评论 -
使用Python实现机器学习算法 -- 简单的神经网络
我们的训练集由 m = 750 个样本组成。因此,我们的矩阵维度如下: 训练集维度: X = (750,2) 目标维度: Y = (750,1) 维度:(m,nhidden) = (2,6) 维度:(bias vector):(1,nhidden) = (1,6) 维度: (nhidden,noutput)= (6,1) 维度:(bia...原创 2019-06-25 13:29:59 · 360 阅读 · 0 评论