数据挖掘
文章平均质量分 85
二哥不像程序员
公众号:数据山谷
展开
-
Sklearn|报错<Expected 2D array, got 1D array instead:...>的3种解决办法
当我们使用sklearn进行fit或者predict等操作的时候,经常会遇到Expected 2D array, got 1D array instead一类的报错,其根本原因是因为最新的sklearn必须要传入一个二维矩阵所导致的,解决办法有如下三种。一、numpy将行转成列一行数据是一维数据,我们转成一列数据自然就是二维数据了。import numpy as npx = [1, 2, 3]x = np.array(x).reshape(1, -1)二、Pandas取一列数据问题通常我们原创 2022-05-06 13:21:23 · 17542 阅读 · 3 评论 -
十大常用机器学习算法总结(持续完善)
前言之前二哥连载了各类常用的机器学习算法的原理与具体推倒过程,本文我们对常用的十大机器学习算法进行总结。、、原创 2021-06-12 00:46:56 · 14605 阅读 · 27 评论 -
中英文语料公开数据集大全
用于对话系统的中英文语料数据,点击超链接直接进入即可。中文电影对白语料中文电影对白语料,噪音比较大,许多对白问答关系没有对应好短消息语料包含中文和英文短信息语料,据说是世界最大公开的短消息语料中文聊天语料ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高NLP相关数据集这是他人收集的自然语言处理相关数据集,主要包含Question Answering,Dialogue Systems, Goal-Oriented Dialogue Systems三部分,都是原创 2020-09-09 10:56:16 · 5207 阅读 · 0 评论 -
3天没合眼,总结出了这份万字Python数据预处理教程
数据预处理通常获取数据通常都是不完整的,缺失值、零值、异常值等情况的出现导致数据的质量大打折扣,而数据预处理技术就是为了让数据具有更高的可用性而产生的,在本章中学习一下如何用Python进行数据预处理。数据预处理是什么当用户拿到一份新数据的时候,通过各种手段进行数值替换,空值填充等过程就是数据预处理。本文中我们将会了解到的数据预处理方式有:① 一般的数据预处理;② 缺失值的处理;③ 异常值的处理;④ 数据变换方法;⑤ 高级数据预处理方法;⑥ 数据预处理实战。重复数据的处理数据采集人员原创 2020-07-30 19:05:17 · 7888 阅读 · 8 评论 -
Python秒开100G数据是怎么办到的?
Python秒开100G数据是怎么办到的?在这个数据爆炸的时代,我们通常要对海量的数据进行分析,少则几十G,多则上百G,对于这样的数据我们打开都很困难,又该如何分析呢?通常都会采取下面几个方案:对数据抽样;使用分布式计算;使用强大的服务器。本文让我们来了解一个低成本又速度快的方法,使用一个强大的Python库-vaex来实现海量数据的读取和操作。Vaex是一个开源的DataFrame库,它可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。它可以在一个n原创 2020-07-17 16:32:23 · 3091 阅读 · 1 评论 -
详细整理几种常见的损失函数|机器学习
机器学习|常见的损失函数公众号:数据山谷在学习过程中我们经常会接触到损失函数、代价函数、目标函数三个词语,本文让我们来总结一下机器学习中常见的损失函数和代价函数。概念首先让我们来了解一下三种损失函数的概念。损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是原创 2020-07-07 18:06:53 · 14315 阅读 · 0 评论 -
Python实战|用决策树实现NBA获胜球队预测
NBA预测获胜球队数据获取因为疫情原因导致NBA2019-2020赛季没有进行完,所以我们使用NBA2018-2019赛季的数据进行预测,数据获取方式有下面两种:通过网站获取我们可以通过网站去获取任意一年的所有场次比赛数据,获取方式如下:在浏览器中访问https://www.basketball-reference.com/leagues/NBA_2019_games.html点击Share&more点击Get table as CSV (for Excel)复制连带表头的所有数据原创 2020-07-03 17:47:31 · 6111 阅读 · 2 评论 -
Python|一行代码获取股票数据
随着金融行业的发展,金融相关的数据变得越来越有价值。股票的历史数据就是一种非常重要的时间序列数据,本文介绍一个不需要自己动手写爬虫就能够获取各个公司的股票信息的Python库——yfinance。yfinance的安装yfinance作为一种数据分析中常用的数据获取库,自然需要一些前置库的安装,其前置库和本身的安装代码如下:pip install numpypip install pandaspip install requestspip install yfinanceyfinance的使原创 2020-06-28 19:31:46 · 7364 阅读 · 1 评论 -
用Python走迷宫|Q-Learning|强化学习
Q-Learning走迷宫上文中我们了解了Q-Learning算法的思想,基于这种思想我们可以实现很多有趣的功能和小demo,本文让我们通过Q-Learning算法来实现用计算机来走迷宫。原理简述我们先从一个比较高端的例子说起,AlphaGo大家都听说过,其实在AlphaGo的训练过程中就使用了Q-Learning的思想,对于机器下错棋和下对棋的时候给予一定的惩罚和奖励,当经过无数次的训练之后,机器自然就会直接向着奖励前进,直接选择对的位置进行下棋,久而久之在各种场景下都能选择对的位置下棋的机器人就能原创 2020-06-16 15:31:08 · 6481 阅读 · 9 评论 -
Q-Learning(强化学习)|机器学习
强化学习什么是强化学习?我们在之前接触过了监督学习和无监督学习,强化学习可以看作是不同于二者的另一类算法,强化学习让计算机从什么都不懂的时刻开始,通过不断地尝试,从错误中学习,找到一种规律,能够掌握达到目的的方法。强化学习的思想就类似于我们去训练一只狗,一开始它听不懂任何我们下达的指示,但是我们可以在每次说出指令并且它做出正确动作的时候,都给它一定的奖励,否则没有奖励,让它知道对错,最终每次都能够直接作出可以得到奖励的动作(正确的反应)。与训练动物不同的是,我们所要训练的是计算机并不是一个活体,但是原创 2020-06-08 15:49:16 · 2185 阅读 · 1 评论 -
如何进行特征选择|机器学习
特征选择为什么要进行特征选择我们在现实任务中经常会遇到维数灾难的问题,这是由于属性过多而造成的,若能从中选择出重要的特征,使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题会大为减轻。去除不相关特征往往会降低学习任务的难度,我们把复杂的问题变得简单化,往往也能使得效率变高,结果变的更准确。过滤式(Filter)过滤式是过滤式的方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关,也就是说我们先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型原创 2020-06-02 16:26:24 · 1846 阅读 · 0 评论 -
PCA|机器学习|连载
PCA本文让我们来了解一下机器学习中最常用的一种降维方法PCA。降维在我们机器学习所训练的数据中,通常会存在着很多的特征,这也就意味着我们所要处理的数据的维度是很大的,由于维度大的数据处理起来非常困难,各种各样的降维算法也就随之产生了。所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)原创 2020-05-27 19:08:01 · 1167 阅读 · 1 评论 -
连载|机器学习|通俗易懂的KNN
K近邻(KNN)算法之前一段时间我们了解到的算法中,可以说是一个比一个复杂,本文呢,我们不再增加难度,来说一个最基础、最简单的监督学习算法KNN。KNN的原理我们给定一个数据集,对于一个新来的样本,我们在数据集中找到距离该样本最近的K个样本,在这K个样本中,某一类出现的次数最多我们就把这个样本分到这个类别中。举一个例子:如图所示,红色的三角和蓝色的方块为我们原有的数据集,绿色的圆即为一个新来到的样本,事先我们并不知道它属于某一类,我们来尝试两种不同的K值下的分类方法:K=3当我们选取K=3时原创 2020-05-25 16:31:41 · 1291 阅读 · 0 评论 -
无须推导的LightGBM|机器学习
LightGBM上文中我们了解了一下XGBoost的原理,本文再来了解一下GBDT的另一个进化算法LightGBM,从原理上来说它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。不了解LightGBM的人可能会有疑问,XGBoost已经在各大场景有很好的表现了,为什么还要用LightGBM呢?我们先来看一下LightGBM相对于XGBoost的优点,再来决定要不要了解一下这个算法。LightGBM相对于XGBoost的优点:更快的训练效率低内存原创 2020-05-21 20:10:57 · 1684 阅读 · 0 评论 -
一文读懂XGBoost|机器学习
XGBoost和GBDT一样,XGBoost也是一种基于CART树的Boosting算法,让我们来看一下如何通俗的去理解XGBoost。先简单的回想一下,在我们之前提到过的GBDT中是怎样用很多棵树去做预测的?很简单,我们给了每棵树不同的训练数据,得到多种不同的结果,最终我们把这些结果相加作为最终的预测值就可以了。XGBoost的定义举一个简单的例子,我们要预测一家人对电子游戏的喜好程度,考虑到年轻和年老相比,年轻更可能喜欢电子游戏,以及男性和女性相比,男性更喜欢电子游戏,故先根据年龄大小区分小孩和原创 2020-05-19 10:37:18 · 1891 阅读 · 0 评论 -
连载|机器学习|聚类(下)
聚类(下)在聚类(上)中我们了解了一下聚类算法的基本原理,同时也了解了最常用的聚类算法K-Means以及相关的优化算法,对于K-Means来说,我们可以称之为原型聚类算法,本节再让我们来了解一下密度聚类和层次聚类算法。密度聚类密度聚类算法假设聚类结构能通过样本分布的紧密程度确定,一般情况下,密度聚类算法从样本密度的角度来考察样本的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。密度聚类算法的主要特点:对噪声数据不敏感发现任意形状的簇一次扫描需要密度参数来作为算法停止的条件计原创 2020-05-14 17:49:10 · 1423 阅读 · 0 评论 -
Python|Pandas的常见操作
为什么要用PandasPandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。pandas的主要特点基于Numpy创建,继承了Numpy中优秀的特点;能够直接读取结构化数据进行操作;以类似于表格的形式呈现数据,便于观察;提供了大量的数理统计方法。Pandas的两种数据结构Series:带标签的一维同构数组;DataFrame:带标签的,大小可变的,二维异构表格。按照层级关系来说的话,可以说D原创 2020-05-13 15:03:02 · 1427 阅读 · 0 评论 -
连载|机器学习|聚类算法(上)
聚类(上)聚类任务对于训练样本的标记信息是未知的情况下,我们的目标就会变成通过对无标记训练样本的学习来揭示数据的内在性质及规律,我们把这样的学习方法称之为“无监督学习”,而在此类学习任务中,研究最多应用最广的就是“聚类”。在聚类算法中,我们试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个“簇”。而对于样本来说,我们并不知道其内部存在的类别,所以我们分出的这些“簇”就可能对应着一些潜在的概念(类别),与分类算法的区别就在于,这些潜在的概念在之前我们是完全未知的。一般的聚类结果展示如下图所原创 2020-05-12 14:05:58 · 1276 阅读 · 0 评论 -
Python|NumPy的常用操作
为什么要用NumpyPython中常用的基本数据结构有很多,通常我们在进行简单的数值存储的时候都会使用list来进行,但是list的缺点在于对于每一个元素都需要有指针和对象,对于数值运算来说,list显然是比较浪费内存和CPU计算时间的。为了弥补这种结构的不足,Numpy诞生了,在Numpy中提供了两种基本的对象:ndarray和ufunc。ndarray是存储单一数据类型的多维数组,ufunc则是能够对数组进行处理的函数。Numpy的主要特点具有运算快,节约空间的ndarray,提供数组化的算数运原创 2020-05-08 20:33:52 · 1396 阅读 · 2 评论 -
连载|GBDT如何进行回归和分类
GBDT在前几年的机器学习竞赛以及工作中,人们使用着各种传统算法进行调参取得性能的提升,突然有一天杀出了一种名为GBDT的算法,改变了当前的格局,该算法在不同的场景中总是能够产生很好的效果,本文就让我们来了解一下GBDT。GBDT(Gradient Boost Decision Tree),中文名称可以直译为“梯度提升决策树”。要想弄明白GBDT具体是什么我们就要弄明白这里面的两个词语DT(D...原创 2020-05-07 17:28:00 · 3632 阅读 · 1 评论 -
连载|如何通俗理解AdaBoost
AdaBoost基本思想对于分类问题而言,给定一个训练样本集,求比较粗糙的分类规则(弱分类器)要比求精确的分类规则(强分类器)容易的多,提升方法就是从弱学习算法出发,反复学习,得到一系列弱分类器(基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数的提升方法都是改变训练数据的概率分布,针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。对于提升方法来说,有两个问题需要回答:一是在...原创 2020-04-28 19:35:08 · 1280 阅读 · 0 评论 -
连载|集成学习(简介)
集成学习集成学习简介集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统。集成学习的结构示意图如下所示:如图所示我们把多个“个体学习器“通过某种策略组合在一起来执行学习任务,当我们的“个体学习器”都是同类的时候(比如:决策树、神经网络)我们可以说这个集成是“同质的”,此时的个体学习器我们通常叫做“基学习器”;反之如果“个体学习器”是多种类型的学习器,我们可以说这个集成是...原创 2020-04-24 17:54:10 · 1438 阅读 · 0 评论 -
连载|朴素贝叶斯
朴素贝叶斯贝叶斯公式贝叶斯公式作为朴素贝叶斯的一个基础,先让我们看一下贝叶斯公式是如何得到的。条件概率公式设A、B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的概率为:P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)乘法公式乘法公式是经过条件概率变换后得到的公式,结果如下:P(AB)=P(A...原创 2020-04-21 19:13:58 · 1349 阅读 · 0 评论 -
连载|详细推算SVM
支持向量机(SVM)基础的SVM了解SVM之前,先让我们来思考一个问题,有下图所示的两类样本点,我们需要找到一条直线(一个平面)来把这两类样本点区分开,在图中可以看到有很多条直线都满足条件,但是哪条直线的分类效果更好呢?直观上看,图中加粗的那条直线分类效果更好,该分类方法对于新样本的泛化能力也是最强的,下面让我们来看一下具体应该如何确定这条直线。假定给一个特征空间上的训练数据集:D={(...原创 2020-04-17 20:21:10 · 2135 阅读 · 0 评论 -
连载|神经网络(下)
误差逆传播算法(BP神经网络)BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络,其算法称为BP算法,它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。基本BP算法包括信号的前向传播和误差的反向传播两个过程。即计算误差输出时按从输入到输出的方向进行,而调整权值和阈值则从输出到输入的方向进行。下面让我们从数学原理上来看一下BP算法...原创 2020-04-15 19:04:55 · 2253 阅读 · 0 评论 -
连载|神经网络(上)
神经网络(上)文末送书福利进行中~人工神经元结构受生物神经元的启发,1943年心理学家McCulloch和数学家Pitts提出了人工神经元模型(Artificial Neuron,简称AN),人们也常用它们两个名字的首字母来命名这个人工神经元模型,称之为M-P模型,这种模型也一直沿用至今。M-P模型的结构如下:在M-P模型中神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通...原创 2020-04-13 17:21:55 · 2347 阅读 · 0 评论 -
连载|梯度下降
梯度下降梯度下降是什么简单的说梯度下降就是对于一个函数f(x)不断的去猜想使得f(x)的值最小的自变量x在哪,猜的大了就让这个值小一点,猜的小了就让这个值大一点。它的主要猜想依据就是根据“梯度”去猜的,那么梯度又是什么呢?简单的我们可以直接把梯度理解为导数,当导数大于0(单调递增)或者小于0(单调递减)的时候,我们就有了一个调整自变量的方向。再让我们用一个更形象的下山场景去理解一下梯度下降,...原创 2020-04-10 18:59:24 · 2062 阅读 · 0 评论 -
连载|决策树(下)
决策树(下)在决策树(上)中我们了解了ID3和C4.5算法,这两种算法都使用了较为复杂的熵来度量,使用了复杂的多叉树,并且只能处理分类问题,针对这些缺点,CART(Classification And Regression Tree)做了改进,可以处理分类,也可以处理回归。分类:预测目标是离散值。回归:预测目标是连续值。基尼指数(Gini)从之前的内容我们了解到ID3使用信息增益来选择特...原创 2020-04-08 17:51:27 · 3055 阅读 · 1 评论 -
连载|决策树(上)
决策树简单理解决策树决策树是一类常见的机器学习方法,和我们人类在进行问题决策时一样,决策树基于树的结构进行决策。例如对于西瓜来说,我们要对“这是好瓜吗”进行决策,通常我们会先进行一些判断:西瓜颜色、根蒂形态、敲打声音等等,最终得到决策后的结果:好瓜or坏瓜。如下图简单展示关于西瓜分类问题的一颗决策树:很显然,决策的最终过程也就对应着我们最终想要得到的结果,决策树的概念通常情况下我们用...原创 2020-04-07 10:43:17 · 2393 阅读 · 2 评论 -
连载|线性判别分析(LDA)
线性判别分析LDALDA基础LDA是一种监督学习的降维技术,对应着它的数据集中的每个样本是有类别输出的。LDA的基本思想是:给定一个训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点中心尽可能远离。也就是“投影后类内方差最小,类间均值最大”。我们先来看一下下图对于二分类的情况:图中的“+”,“-”分别表示正例和反例,我们想要的就是让每种类别的投影点尽...原创 2020-04-02 17:14:14 · 2232 阅读 · 0 评论 -
连载|逻辑回归
一、逻辑斯蒂分布逻辑斯蒂分布也叫作增长分布,其分布函数是一个增长函数。设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:分布函数:F(x)=P(X⩽x)=11+e−(x−μ)/yF(x)=P(X\leqslant x)=\frac{1}{1+e^{-(x-\mu )/y}}F(x)=P(X⩽x)=1+e−(x−μ)/y1密度函数:f(x)=F′(x)=e−(x−μ)...原创 2020-04-01 10:50:14 · 2118 阅读 · 0 评论 -
连载|线性回归
线性模型|线性回归基本形式给定由d个属性描述的示例X=(x1;x2;...;xd)X=(x_1;x_2;...;x_d)X=(x1;x2;...;xd),其中xix_ixi是XXX在第i个属性上的取值,线性模型想要通过一个属性的线性组合来得到一个预测的函数,即:f(x)=w1x1+w2x2+...+wdxd+bf(x)=w_1x_1+w_2x_2+...+w_dx_d+bf(x)=w...原创 2020-03-26 20:19:59 · 1948 阅读 · 0 评论 -
连载|模型评估与过拟合(下)
模型评估与过拟合性能度量我们在进行对学习器泛化能力评估的同时,不仅需要有效的评估方法,还需要一个好的衡量模型泛化能力的评价标准。我们先来学习一下在分类算法中经常用到的模型评价指标。准确率(Accuracy)分类正确的样本个数占总样本个数的比例。Accuracy=ncorrectntotalAccuracy=\frac{n_{correct}}{n_{total}}Accuracy=nto...原创 2020-03-24 15:09:23 · 2526 阅读 · 0 评论 -
逻辑回归和线性回归有何不同?
分类和回归问题首先我们来明确两个大类:分类问题和回归问题。分类问题:输入变量与输出变量均为连续变量的预测问题是回归问题回归问题:输出变量为有限个离散变量的预测问题为分类问题举个例子:预测明天的气温是多少度,这是一个回归问题;预测明天是阴、晴还是雨,就是一个分类问题。线性回归线性回归是一个典型的回归算法,所谓的线性回归指的就是用一条直线能够较为准确的描述数据之间的关系,...原创 2019-11-07 16:03:05 · 3065 阅读 · 0 评论 -
常见的超参数调优方法
学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,后者成为超参数。比如,支持向量机里面的C, Kernal, game;朴素贝叶斯里面的alpha等。网格搜索网格搜索通过查找搜索范围内的所有的点来确定最优值,如果采用较大的搜索范围和较小的步长,网格搜索有很大的概率找到全局最优值。但是随着超参数的增加这种搜索方法十分消耗计...原创 2019-11-06 16:16:26 · 3208 阅读 · 0 评论 -
怎样处理过拟合和欠拟合?
过拟合和欠拟合从模型在不同集合上的表现来看首先来明确一下过拟合和欠拟合的概念。过拟合(下图中最右侧的图像)过拟合指的是训练数据拟合程度过高的情况,也就是说模型在训练集上表现的很好,但是在测试集和新的数据集上表现的较差。欠拟合(下图中最左侧的图像)了解了什么是过拟合,欠拟合也显而易见,当模型在训练集和测试集表现的都不好的时候我们就称这种现象为欠拟合。从方差和偏差的角度来看...原创 2019-11-05 14:40:00 · 1016 阅读 · 0 评论 -
模型评估过程中,主要的验证方法与优缺点。
Holdout检验Holdout检验是最简单也是最直接的验证方法,它将原始的样本随机划分成训练机和验证集两部分,通常情况下我们把样本按照70%-30%的比例分成两部分,70%用于模型的训练,30%用于模型的验证,包括绘制ROC曲线,计算精确率和召回率等指标来评估模型性能。同时Holdout的缺点也很明显,即在验证集上计算出来的最后评估指标与原始的分组有很大关系,为了消除这种验证的随机性“交...原创 2019-11-05 13:54:46 · 3552 阅读 · 0 评论 -
在对数据进行预处理时,怎样处理类别型特征?
什么样的特征是类别型特征?类别型特征主要是指性别(男/女),体型(胖/瘦/适中)等只有在选项内取值的特征,类别型特征的原始输入通常是字符串形式,除了决策树等少数模型能够直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。序号编码序号编码通常用于处理类别间具有大小关系的数据,例如考试的成绩可以由好到坏分为(A、B、C、D)四档...原创 2019-11-04 15:01:53 · 1075 阅读 · 1 评论 -
主成分分析(PCA)
目录方差协方差维度灾难主成分分析(PCA)一、标准化二、计算协方差矩阵三、计算出主成分主成分是什么怎么计算主成分特征值和特征向量四、主成分向量五、将数据映射到新的主成分坐标系中PCA的步骤方差方差是指一组数据中的各个数减去这组数据的平均数的平方和的平均数。例:(1,2,3,4,5)平均数=3各个数与平均数差的平方和=10方...原创 2019-09-23 11:08:10 · 24113 阅读 · 1 评论 -
一文学会用python进行数据预处理
目录数据预处理1、概述2、缺失值处理查找缺失值缺失值处理方法3、异常值处理异常值的识别异常值处理的常用方法4、数据集成5、数据变换数据转换数据标准化最大-最小规范化规范化特征二值化6、数据规约维灾难维规约数据预处理1、概述实际的数据库极易受到噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源...原创 2019-09-18 17:53:09 · 1727 阅读 · 0 评论