taon1607-CSDN博客

原创图像数据的处理

Opencv是处理计算机视觉任务中最常用的工具包，它的底层是采用C++语言编写的，同时提供python接口。这样既实现了运算效率高的特性，也实现了应用简单的特性。这一小结，主要总结Opencv处理图像数据的方法，包括图像的读取，变换和保存。1.图像的读取#导入opencv工具包，安装: pip install opencv-pythonimport cv2#导入图片img = cv2.imread('D:\image_dataset\cat.jpg')#查看图片的大小print(img.s

2020-08-23 17:35:01 794

原创词向量构造 - Tf-idf模型

前面我们总结过词袋模型，词袋模型将文本中所有不重复的词看作一个集合，然后对文本中的每句话进行编码。在句子中对于出现的词标记为1，未出现的词标记为0。这样我们就完成了对文本向量的编码，然后就可以调用机器学习模型来对其进行拟合。词袋模型解决了文本编码的问题，但词袋模型本身也存在着巨大的缺点。比如：词袋模型中向量只考虑词的出现频率，不考虑该词的具体含义；词袋模型构造的向量不考虑词出现的先后顺序；词袋模型构造的向量为稀疏矩阵，模型的效果非常有限。基于以上问题，Tf-idf模型出现了。1.Tf-idf（词频-逆文档

2020-08-22 17:29:29 2221

原创词向量构造 - 词袋模型

对于机器学习任务而言，不管是什么类型的数据（语言，声音，图像，视频），都必须转化为数值型数据，一般均为向量或者矩阵。自然语言处理，经过了一个长期的发展过程，近几年取得了重大的突破。自然语言处理的突破主要得益于深度学习技术（自然语言处理专用算法）的进步以及计算机算力的提升（GPU并行计算）。这一小节，我们将介绍自然语言处理发展历史中的第一个模型 - 词袋模型。1.词袋模型（Bag of words）的定义词袋模型：顾名思义，就是把文章中的所有词语装入到一个袋子当中，装入袋子中的词语是没有重复的。下面用

2020-08-12 17:39:35 1653

原创汉语词频统计

该案例以党的十九大报告为例，统计报告中各个词语出现的频率。总体步骤为读入文本，分词，词频统计。通过观察词语频率最高的几个词，我们就可以大致了解这份报告的主要内容。汉语中常见的停用词：我们，这里，但是，的，然而之类的词语，对于文章表达的主旨没有太大的影响。十九大报告链接：链接：https://pan.baidu.com/s/1xI91MdfXZzQ1Ibms9EEiAg提取码：ne3l#打开文件并读取文本内容f = open('D:\\py_dataset\\十九大报告.txt','r',enco

2020-07-13 17:58:40 2117

原创回归算法的评估指标

回归问题是机器学习要解决的四大问题之一，在我们的生活中也存在着很多回归问题。比如某一地区的房价预测，某一个学生高考成绩的预测，某一地区感染病毒人数的预测，某一公司2020年营业收入的预测等等。从以上的例子中，我们可知回归问题的目标是预测一个数值或者一个区间数值。回归算法：对历史数据进行拟合，形成拟合方程。接下来使用该方程对新数据进行预测。下图中红线表示的是一元数据的拟合方程，如果数据是二元数据，那么它的拟合方程就是一个拟合平面，对于更高维的数据，它的拟合方程将更加复杂。回归算法的评估指标：对于回归算

2020-07-02 16:42:55 2241

原创多分类算法的评估指标

在以往的分类问题求解当中，我们遇到的问题多为二分类问题，我们常用的评估指标有accuracy, precision, recall_score, f1-score, roc_auc_score等。但是在实际生活中，多分类问题也是大量存在的。这一小节，我们就详细的说明一下多分类问题的评估指标。我们先来看一下sklearn库中的二分类的评估指标，以recall_score为例。在recall_score方法中，有一个很重要的参数’average’，它的默认值为’binary’。当在默认参数的情况，该评估方法

2020-07-02 16:42:15 9130

原创 SKlearn二分类评价指标

SKlearn的Metrics模块下有有许多二分类算法的评价指标，这里我们主要讨论最常用的几种。1.准确度（Accuracy）from sklearn.metrics import accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)1.1参数说明y_true：数据的真实label值y_pred：数据的预测标签值normalize：默认为True，返回正确预测的个数，若是为False，返回正确预测的比例samp

2020-07-02 16:41:27 5343

原创温度预测示例&参数优化工具RandomizedSearchCV

一般情况下，我们做数据挖掘任务都是按照“数据预处理 - 特征工程 - 构建模型（使用默认参数或经验参数） - 模型评估 - 参数优化 - 模型固定”这样一个流程来处理问题。这一小节，我们要讨论的主题就是参数优化，前面我们讨论过GridSearchCV（网格搜索）这个工具，它是对我们的参数进行组合，选取效果最好的那组参数。这一节，我们探索下参数优化当中的另一个工具RandomizedSearchCV（随机搜索），这名字咋一听感觉有点不太靠谱，对，它是有点不太靠谱，但为什么我们还要用它呢？因为它的效率高，它

2020-07-02 16:40:24 2925

原创模型调参工具GridSearchCV

今天我们来讨论机器学习中一个非常重要的函数GridSearchCV，它是我们用来求解最佳参数组合的常用函数。例如：我们的随机森林算法有很多参数，如n_estimators,max_depth,min_samples_split等等，我们希望对比不同参数组合下的模型效果，来选出该模型的最佳参数。GridSearchCV可以自动对我们给定的参数进行组合，并得出每个组合的模型效果，通过比较其效果来选出最佳参数组合。GridSearchCV API文档sklearn.model_selection.Grid

2020-07-02 16:39:29 505 1

原创样本不均衡数据处理

当我们在做机器学习任务时，会经常遇到这样的数据集，两种样本的数量相差特别悬殊。这就会导致一个问题，在建模的时候，模型会特别注重数量多的样本，而忽视数量少的样本，觉得数量少的样本不够重要。生活中也有许多这样的例子，如在一份患者数据集当中，绝大多数患者都是正常的，只有极少数患者会得癌症。在一份银行贷款数据集中，绝大数用户都能按时还款，只有极少数用户会欠款不还。如果我们我们的模型只关注正常样本，而忽视了这些极少数的异常样本，那么这样的模型是没有什么实际价值的。银行贷款是一件犯错成本很高的事情，我们需要根据用户

2020-07-02 16:38:27 935 1

原创数据预处理（系统整理）

前两节，我们总结了数据预处理中的一个小部分 – 数据类型转换。这一节我们系统地总结下数据预处理相关知识点。纵然我们掌握了很多机器学习算法，十八般武艺，样样精通，可是在拿到一份数据集的时候，还是无法直接应用。因为我们的数据集真的是很“dirty”的，里面包含了大量的缺失值，异常值，离群值，非结构化数值等等。通常，在做机器学习或数据挖掘时，数据预处理会占用60%~70%的时间，所以这一部分也是整个机器学习任务中最具挑战性的部分。###数据预处理的组成部分：1.数据清洗2.数据转换3.数据描述4.特征

2020-07-02 16:36:52 1892

原创连续型数据处理

上一节，我们总结了离散型数据的处理方法，这一节我们整理下连续型数据的处理方法。一般来讲，离散型数据都是类别值，如：男生，女生，商务座，一等座，二等座等等。连续型数据基本上都是数值型数据，如年龄（10岁，11岁…），身高（110cm, 175cm…），海拔，薪资等等。既然连续型数据都是数值，是可以直接拿来供计算机使用的，那么连续型数据该如何处理？这里我们提出一个处理思想：连续型数据离散化。连续型数据离散化以后的建模效果一定会比原来的好吗？这个答案是不一定的，任何时候我们都需要对两者结果进行比较，从而做出判断

2020-07-02 16:35:15 6732 2

原创数据预处理 - 类型转换（离散型）

当我们拿到一个数据分析任务时，我们并不能直接调用数据挖掘算法来解决该问题。在实际的任务中，我们所面对的数据质量都不是特别的好，如果我们对质量较差的数据集直接应用算法建模，那么得到结果也可想而知。所以在调用算法之前，必须对数据进行预处理工作。数据预处理是整个数据挖掘过程中最累的一部分工作，但也是非常重要的一部分工作，只要得到质量较高的数据集，后期的建模工作才会更有意义。数据预处理涉及的方面非常的多，如缺失值处理，异常值处理，重复值处理，数据类型转换，样本处理等等。这一小节，我们先来了解下数据类型转换中的离

2020-07-02 16:33:57 4514

原创数据预处理之归一化和标准化

归一化1、把数变为（0，1）之间的小数，主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。2、把有量纲表达式变为无量纲表达式归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。归一化算法有：1.线性转换:y=(x-minvalue)/(maxvalue-minvalue)２.对数函数转换： y=log10(x)３.反余切函数转换: y=atan(x)*2/pi归一化编程实现：import numpy as npf

2020-07-02 16:32:41 596 3

原创 LDA线性判别分析

LDA（Linear Discriminant Analysis）线性判别分析是一种有监督数据降维算法，它与我们之前提到的PCA都是数据清洗过程中最常用的两种数据降维技术。但它们又有所不同，PCA的核心是将现有数据转换到低维度得空间中，数据的方差都变得最大。LDA的核心含义是对将现有数据进行转换，数据类别变得容易区分，其方差不一定是最大的。LDA的作用：1.将数据的维度降低，除去那些对结果影响不大的特征。如今我们的数据集中，数据的特征往往会达到成百上千维，可是这些维度都会对最终结果产生影响吗？其实不然，

2020-07-02 16:30:41 669

原创 LightGBM

LightGBM梯度提升框架是由微软亚洲研究院于2017年1月份提出的一个开源框架，LightGBM是一个快速的，分布式的，高性能的基于决策树的分布框架。在保证准确性不变的前提下，速度可提升10倍，内存降低为原来的1/3。LightGBM的算法思想LightGBM摒弃了现在大部分GBDT使用的按层生长（level-wise）的决策树生长策略，使用带有深度限制的按叶子生长（leaf-wise）的策略。level-wise过一次数据可以同时分裂同一层的叶子，容易进行多线程优化，也好控制模型复杂度，不容易过拟

2020-06-23 14:09:33 331

原创超级算法之XGBoost

XGBoost(Extreme Gradient Boosting)：Boosting思想是将许多弱分类器集成在一起形成一个强分类器。XGBoost是集成算法的王牌算法，它可以使用多种分类器，线性分类器也可以使用，它是将众多的弱分类器集成在一起，从而形成一个强分类器。在Kaggle数据挖掘比赛中，XGBoost基本成为了必用的算法，因为它的效率高，而且效果好。XGBoost算法思想XGBoost的算法思想就是通过不断的添加树，不断地进行特征分裂来生长一棵树，每次添加一棵树，就是学习一个新的函数，去拟合

2020-06-23 14:08:36 621

原创梯度提升算法（GBDT）

GBDT（Gradient Boosting Decision Tree）算法是集成算法中的一种，它的最基本分类器为CART二分类回归树，集成方式为梯度提升。CART二分类回归树CART回归树是GBDT算法的最基本分类器，CART回归树决定了每次分类时，叶子结点只能分出两个树枝，它与ID3，C4.5是不同的。CART回归树经常涉及到一些问题。选择哪个特征作为最优分裂特征？怎么去切分一个特征？确定分裂结束的条件？模型的剪枝（后剪枝，预剪枝）？BoostingBoosting是一种模型的组合

2020-06-23 14:07:46 2814

原创英文词频统计

该案例以莎士比亚的四大悲剧之一《哈姆雷特》为例，来统计该文章中的词语出现的频率。总体的步骤为读入文本，大小写转换，特殊字符转换，分词，词频统计，排序。通过观察词语频率最高的几个词，我们大致可以了解该文章的主要内容。这一小节，我们没有涉及到英文文章中去停用词的操作。停用词：出现的频率很高，但对文章表达主旨没有太大影响的词。在英文文章中，如：I, and, but, here, there, some之类的词语等。文档链接：链接：https://pan.baidu.com/s/17ehiYKripA–noI

2020-06-23 13:07:38 1823

原创集成算法 - 随机森林

这一节，我们来聊聊随机森林算法，虽然我对这些算法的理解也不是很深，但还是决定写一写。首先，集成算法是指多种算法的集合，因为单一的算法在处理某种问题时，可能会有所限制，集成算法会综合多种算法的结果，得到一个均值，效果往往会比单一算法好一些。前面我们讨论过决策树，那随机森林就不难理解，它是由多个决策树组合而成的，可以是1棵树，10棵树，100棵树，甚至上千棵树。前面我们了解了决策树的构造过程，那么随机森林就是构造很多棵决策树，每棵决策树各不相同。那么如何保证构造出来的每棵决策树都不一样呢？这就要使用不同的数据

2020-06-22 10:27:54 265

原创关联分析 & Apriori算法

在日常生活中，我们每个人都会去超市、商场、电商平台购物，每次的购物记录都会进入商家的用户数据库中。商家希望从这些海量的消费记录中，发现一些有价值的规律，来提高自己的盈利水平。当我们在Amazon上购买图书时，会经常看到下面两个提示：1.这些书会被消费者一起购买，并且价格上有一定的折扣；2.购买了这本书的人，也会购买其他书。Amazon对平台中海量的用户记录进行挖掘，发现了这些规律，然后将这些规律应用于实际销售工作当中。有数据显示，基于这种向用户进行主动推荐的营销方式，使得亚马逊的营业额增加了35%。我们

2020-06-22 10:26:03 1751

原创高斯混合模型（Gaussian Mixture Model）

高斯混合模型，通常简称GMM，是一种广泛使用的聚类算法，它并不能直接返回该数据点属于哪一簇。GMM使用了高斯分布作为模型参数，用模型去逼近数据点分布，在实际计算过程中使用的是期望最大算法（EM, Expection Maximum）进行训练。高斯分布，通常也叫正态分布，是自然界中最常见的分布形式。对于任一高斯分布函数，都有两个参数μ和σ，其中μ为该组数据的均值，σ为该组数据的标准差，下式是高斯分布的密度函数。下图展示了4组不同的高斯分布函数，每一组分布的μ和σ是不同的。高斯分布的变量取值范围为[-∞,

2020-06-22 10:24:06 8101

原创 Sklearn - PCA数据降维

PCA是无监督数据降维方式，目的是将一个高维数据集转换为一个低维数据集。如今我们的数据集往往有成百上千维的特征，但并不是所有的特征都很重要，通过降维，去除那些不重要的特征。数据维度的降低了，同时计算机的运算效率也得到了提升。在人工智能技术刚起步的时候，人们关注的焦点在于算法的准确性，通过不断优化算法中的计算参数，来提高运算结果的准确率。今天，随着存储与通信技术的发展，数据规模变得空前的庞大，所以运算效率变成了我们不得不考虑的问题。假如我们有一份医患数据集，该数据集有许多患者特征，如：年龄、性别、身高、体重

2020-06-18 19:49:16 8863 5

原创第一节：Jieba分词

在我们的日常工作与学习当中，最常用的两种语言就是汉语和英语了。在做文本分析的时候，第一步都是分词。在英语文章中，每个词都是天然的用空格分开的，所以我们就不讨论英语的分词了。在汉语分词中，我们最常用的就是jieba分词分词库了。jieba是一款开源的分词工具包，广泛应用于文本分析，词云绘制，关键词提取，自然语言处理等领域。1.安装pip install jieba2.Jieba常用函数精确模式：精确的切分句子中的每个词语，没有冗余词。全模式：把所有可能的词语全部切分开，切分得到的词语是有冗余的。

2020-06-18 19:46:23 290

原创 PCA降维 - Numpy版

这一节，我们来讨论一个数据预处理的技术PCA，PCA全称：Principal Components Analysis（主成分分析）。举个例子：假如我现在负责汽车零件的生产工艺，我抽取了某一天的生产工艺数据做分析，假设这一天生产了1000件产品，那我就有了1000个样本数据。同时对于每件产品，都会记录其生产过程中压力、温度、湿度、速度等工艺参数，假设有20个工艺参数将会对产品质量产生影响。现在我就拿到了一个1000*20的数据集，当我同时观察这20个因素对产品质量的影响，我很难发现其中的规律。我们也知道在这2

2020-06-18 19:43:51 1657

原创聚类算法DBSCAN

DBSCAN：Density-Based Spatial Clustering of Applications with Noise，基于密度和带有噪声点的聚类。DBSCAN算法与K-MEANS算法一样，没有数学原理上的推导，理解起来比较容易。K-MEANS算法可以处理简单的数据集，对于复杂数据集的分类效果并不好，DBSCAN则可以处理更为复杂的数据集。1.DBSCAN基本概念1.核心对象：若某个点的密度达到算法设定的阈值则其为核心点。（即r邻域内点的数量不小于minPts）。假设r = 10,min

2020-06-17 14:29:52 600

原创聚类算法KMeans

这一节我们来讨论下聚类算法，聚类属于无监督问题，给出的数据没有标签值，需要机器学习算法自行去探索其中的规律，根据该规律将相近的数据划分为一类。聚类算法理解起来非常容易，没有数学公式的推导。我们用下图来做个简单的说明，原始数据是没有颜色的，我们通过聚类算法将相近的数据分成了三类，并标记了三种颜色。1.K-MEANS算法的基本概念1.指定簇的个数，需要指定K值，k-means会根据指定的k值将数据分为k类。实际代码：km = KMeans(n_clusters = 3)，代码中的3就是我们指定的k值。

2020-06-17 14:28:48 954

原创自然语言处理概述（Natural Language Process）

近年来，人工智能逐渐成为了当前社会最热门的行业之一，也逐渐的进入了寻常百姓家。比如我们熟知的AlphaGo击败韩国围棋冠军李世石，小米的语音助手小爱同学，英国的智能机器人Sophia，喜马拉雅的小雅音响，Tesla的自动驾驶汽车等等。一方面我们在享受着人工智能带来的种种便利，一方面我们也在担心自己的工作会不会很快被人工智（Ai）能替代。其实在此我举一个Google translator的例子，这是2020年的翻译水平。学过历史的我们都知道林则徐虎门销烟这段历史，可是机器它不并知道，所以它翻译出来的结果是林

2020-06-17 14:26:33 1980

原创员工离职预测

1.项目目标在任何一家企业里，员工队伍的稳定性对于企业的发展都非常的重要。所以通过模型预测员工离职的价值就日益凸显出来了，该模型可以大大地提高HR部门的工作效率，同时也可以降低因人员变动而需要额外支出的人力成本。当然员工离职的原因都是多方面的，并非一个简单的数学模型所能预测的。在此，我们只是通过这个案例来掌握机器学习建模的完整里程。完成的问题解决流程请参考附件中的Notebook文档。2.数据集简介该数据集共收集了14999条员工数据，每位员工都记录了12个指标，其中11个为特征指标，1个为标签指标。

2020-06-17 14:24:00 1243

原创科比职业生涯数据集分析

1.项目目标通过分析科比职业生涯比赛的相关数据，掌握Numpy, Pandas, Matplotlib, Seaborn等常用数据分析库的用法，掌握常规的数据预处理的方法以及特征工程。掌握建立随机森林模型，模型参数调整，构建最好的模型，预测测试数据，并保存测试数据的方法。2.科比生涯简介不论你是否看NBA，都应该听说过科比布莱恩特这个名字，它是最接近篮球之神乔丹的运动员。科比于1996年以13顺位的选秀身份进入联盟，一生都效力于洛杉矶湖人队。于2016年宣布退役，职业生涯获奖无数，5次NBA总冠军，2

2020-06-16 09:13:52 6602

原创 Titanic沉船数据集之获救乘客预测

项目目标：Titanic数据集是我们进入到机器学习领域中的第一个数据集，同我们学习编程的第一句程序语言（‘hello,world’）是一样的。通过对该数据集进行机器学习建模，掌握Numpy,Pandas,Matplotlib,Sklearn等常用数据分析库的使用，并掌握机器学习的完成流程数据预处理 - 建立基础模型 - 模型评估 - 调参 - 固定模型参数。背景介绍：泰坦尼克沉船是震惊世界的海难事件，1912年4月15日，在它的处女航中，撞上冰川后沉没。造成了超过1502人死亡，该事件也引起了全世界对

2020-06-14 21:33:23 847

原创朴素贝叶斯（Naiv Bayes）算法简介

贝叶斯算法是由英国数学家托马斯·贝叶斯提出的，这个算法的提出是为了解决“逆向概率”的问题。首先我们先来解释下正向概率与逆向概率的含义：正向概率：假设一个箱子里有5个黄色球和5个白色球，随机从箱子里拿出一个球，请问取出的是黄球的概率是多少？很容易计算P（黄球）= N（黄球）/N（黄球）+ N（白球） = 5/5+5 = 1/2。逆向概率：起初我们并不知道箱子里有多少个球，我们依次从箱子里取出10个球，发现这个10个球中有7个白球，3个黄球，那么我们会根据我们观察到的结果去推测箱子里白球与黄球的分布比例大

2020-06-14 21:25:56 2282

原创支持向量机（SVM）算法简介

支持向量机（Support Vector Machine）：SVM算法既可以处理分类问题，也可以处理回归问题。SVM算法要解决的问题就是找到最好的决策边界，以对问题进行分类和求解。我们用这张图来理解SVM算法，图片中有两类点方形和圆形，我们要找到一条分界线将两类点清楚的分开。我们的依据是分界线离最近点的距离要最大，这样的决策边界是最优的，右图的决策边界要优于左图的决策边界，因为它的分类效果更好，直观地看就是决策边界越宽越好。我们将这些最近的点成为支持向量，我们的决策边界的构造只取决于它们，与其他点无关。

2020-06-14 21:21:46 2360

原创决策树算法简介

树模型是机器学习中非常常用的一种算法，既可以处理分类问题，也可以处理回归问题，更多的时候是用来处理分类问题的。我们用下图做一个示例，小明家有五口人，爷爷、奶奶、妈妈、妹妹和自己，我们现在要判断谁喜欢打游戏。这里我们选了两个特征年龄和性别，先用年龄进行分类，年龄大于15岁的一组，年龄小于15岁的一组，再使用性别特征对小于15岁的这组进行分类，男生一类，女生一类，最终就分出了男生喜欢打游戏。这个过程跟我们高中数学学过的流程图是一样的。在计算机语言中，我们将这样的模型称为树模型，一组数据经过不同的特征进行多次

2020-06-14 21:10:00 447

原创英语词云绘制

在数据的探索性分析过程中，对于数值型数据集，我们可以使用pd.info()，pd.describe()来对数据做一些统计汇总，使我们对数据有一个初步的整体认识。我们也可以对其做一些可视化的展示，如使用柱状图，直方图，散点图等等。但是对于文本数据，上述的方式就没有那么有效了。在此我们可以使用词云，来对文本数据做一个直观的展示，使我们对文本数据有一个整体的了解。这一节，我们对英文文本绘制词云。由于英文文本是以空格来分开的，所以不需要做分词处理，可以直接绘制词云。在绘制词云的时候，我们可以找一些模板，直接套用过

2020-06-11 20:17:04 801

原创汉语词云绘制

我们在分析英文文本的时候，可以直接统计词频，是因为英文中每个单词都是天然用空格分开的。而在汉语文本中，词和词都是连接在一起的，所以我们需要先对汉语语句进行分词处理，然后再进行词频统计。我们以汽车广告数据集为例，来进行汉语词云的绘制。主要步骤与英文词云绘制是一致的，但增加了分词和去停用词等步骤。停用词：一些出现频率很高，但对文章表达的主旨没有影响的词语，如，我们，你们，今天，但是，这里…汽车广告数据集链接：链接：https://pan.baidu.com/s/1IMR3wGddfirxA3NdaKHf

2020-06-11 20:15:34 409

原创三维图像的绘制

这一小节，我们来绘制三维图像。二维图像可以表示两个变量在空间中的分布，三维图像可以表示三个变量在空间中的分布。通过对三维数据进行可视化，使得我们可以更加直观的理解数据。在中学的时候，我们接触的函数基本都是一元二次函数，如y=x2+5y = x^2 + 5y=x2+5它的几何表达如下图所示：到了大学的时候，我们接触到函数就变得更加复杂了，如二元二次函数，甚至有更加复杂（维度更高）的函数。z=x2+y2+5z = x^2 + y^2 + 5z=x2+y2+5上述函数表达式的几何图如下图所示：三

2020-06-11 20:14:17 3647

原创决策树绘制

决策树是机器学习的十大算法之一，可用于解决分类和回归问题。决策树的结构很像二叉树，通过一层一层的节点，来对我们的样本进行分类。决策树算法的可解释性非常的好，通过绘制决策树，我们可以很清楚理地解算法的工作原理，同时也方便向别人进行展示。这一节，我们的重点是画决策树，对于决策树算法的原理以及细节，我们不做深入的探讨。我们使用iris数据集，它有150个样本，5个特征。接下来我们就以iris数据集为例，来进行决策树的绘制。iris数据集链接：链接：https://pan.baidu.com/s/1YCyvn

2020-06-11 20:12:36 4039

原创常见的数据可视化工具简介

当我们做数据分析或数据挖掘的时候，常常需要对数据的分析过程和结果做可视化展示。数据可视化可以更加清晰地向听众传达想要表达的信息，同时也降低了大家理解数据的门槛。Python和R作为数据挖掘领域的倚天屠龙，其本身自带的可视化包可以很方便地让大家对自己的数据进行展示。如Python中的matplotlib,seaborn库，R中的ggplot库。Excel是我们工作和学习中用到的最多的数据处理工具，我们使用它存储数据，处理数据，分析展示数据。Excel的主要问题在于，数据量较大的时候，打开表格和处理起来都比较耗

2020-06-11 20:05:36 1086

原创 Data Visualization（数据可视化）

如今我们生活的时代被称作大数据时代，随着互联网技术的普及以及即将到来的5G通信技术，使我们比以往任何年代获取数据都变得更加的容易。那么大数据有什么特征呢？一：数据量大，以前我们衡量数据大小所用的单位都是MB、GB，而现在的数据量都是以TB,EB,ZB来计等等。二：数据类型多，如今我们所拿到的数据不单单是数值型数据，我们有语言文字、声音、图像等数据，它们的处理技术就不能采用以往的数据分析技术了，所以就产生了如今的人工智能领域，该领域主要由四大部分组成，机器学习（ML）作为该领域的主体，主要是对各种常规算法的研

2020-06-11 20:03:01 2275

空空如也

空空如也