pandas.read_csv分块读取大文件

最近,下载了一个csv结构的数据集,有1.2G。对该文件试图用pd.read_csv进行读取的时候,发现出现内存不足的情况 ,电脑内存不足,不能一次性的读取。此时我们就需要对csv文件进行分块读取。 在对数据进行分块读取之前,我们需要对pd.read_csv()中的参数进行一定的了解,pa...

2019-03-20 09:26:36

阅读数 30

评论数 0

KMP模式匹配算法

KMP模式匹配算法 KMP算法可以说是一个很经典的模式匹配算法了,刚开始并没有看懂,多看几遍就好了。 朴素模式匹配算法(KMP算法没提出来之前的常用的匹配算法) 当我们在一篇文章中去搜索一个单词的时候,就是在文章中对这个单词进行定位操作。这种子串的定位操作通常称为串的模式匹配。是字符串中最重...

2018-11-29 17:14:50

阅读数 59

评论数 0

决策树(二)--构造特征树和剪枝

前面记录了特征值的选取,现在我们就来说一下剪枝。 决策树的剪枝 在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常,剪枝方法处理这种过分拟合数据的问题。 有常用的两种剪枝方法:先剪枝和后剪枝。     先剪枝:通过提前停止树的构建(例如,通过决定在给定的结点不再分裂...

2018-11-26 10:29:18

阅读数 87

评论数 0

决策树(一)--特征值选择

决策树是一种基本的分类和回归方法。用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试的结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值,递归地对实例进行测试和分配,直至达到叶节点,最后将实例分到叶节点的类中。 决策树学习通常包括3个步骤:特征选择,决策树的生成...

2018-11-20 11:40:20

阅读数 517

评论数 0

python正则表达式

在这里推荐一个在线网站,输入正则表达式,可以看到正则表达式的图形解释 https://regexper.com/ 正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否包含某种子串,将匹配的子串替换或者从某个串中取出符合条件的子串 普通字符 普通字符包括没有显式指定为元字符的所有可打...

2018-11-06 15:58:02

阅读数 60

评论数 0

梯度下降法

前些时间接触了机器学习,发现梯度下降法是机器学习里比较基础又比较重要的一个求最小值的算法。梯度下降算法过程如下: 1)随机初始值; 2)迭代,直至收敛。表示在处的负梯度方向,表示学习率。   在这里,简单谈一下自己对梯度下降法的理解。 首先,要明确梯度是一个向量,是一个n元函数f关于n个...

2018-11-05 10:11:52

阅读数 60

评论数 0

聚类算法之层次聚类

层次聚类 1.1 凝聚策略 按照聚类算法使用的两种不同的策略,可以将聚类算法分为两类: 1)层次或凝聚式算法 这类算法一开始将每个点都看成簇。簇与簇之间按照接近度(closeness)来组合,接近度可以按照“接近”的不同含义采用不同的定义。当进一步的组合导致多个原因之下的非期望结果时,上述...

2018-10-21 10:19:30

阅读数 172

评论数 0

全连接和半连接

博客转自:https://blog.csdn.net/tyh70537/article/details/76768802                  https://blog.csdn.net/tyh70537/article/details/75309042 首先,我们先介绍要用到的图...

2018-10-15 15:45:58

阅读数 232

评论数 0

聚类算法之k-均值,k-中心点

k-means和k-中心点算法是属于简单的迭代型聚类算法,它将一个给定的数据集分为用户指定的k个聚簇。实现和运行该算法都很简单,它的速度比较快,同时又易于修改,所以在实际应用中使用非常广泛。 K-means算法 k-means算法是硬聚类算法,是典型的基于原型的目标函数聚类算法的代表。它是数据...

2018-10-11 19:23:19

阅读数 852

评论数 0

线性代数知识

博客转自https://blog.csdn.net/myarrow/article/details/53365048 1.  线性代数知识图谱 线性代数是代数学的一个分支,主要处理线性关系问题。线性关系意即数学对象之间的关系是以一次形式来表达的。例如,在解析几何里,平面上直线的方程是二元一次方...

2018-10-07 17:05:28

阅读数 48

评论数 0

数据挖掘聚类算法概述(有待完善)

1:聚类概念 聚类是一个把数据对象划分为多个簇或者多个组的过程,使得一个簇内的对象具有很高的相似性,但与其他簇内的对象不相似。聚类算法属于无监督学习 2:聚类分析概念  聚类分析是一个把数据对象划分为子集的过程,每个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似,由聚类分析产...

2018-09-26 17:06:18

阅读数 693

评论数 0

关联分析(Apriori,FP-growth)

关联分析是数据挖掘中的重要组成部分,旨在挖掘数据中的频繁模式。我们可以通过一个案例数据库挖掘著名案例来大致了解挖掘频繁项集并产生关联规则。 关联分析的基本概念 关联分析:在大规模数据集中寻找有趣的关系 频繁项集:经常出现在一起的物品集合,即包含0个或者多个项的集合 关联规则:暗示两个物品之...

2018-09-21 21:14:23

阅读数 135

评论数 0

频繁项集,频繁闭项集,最大频繁项集

转自:https://blog.csdn.net/u013007900/article/details/54743395 Frequent Itemset(频繁项集) 称I={i1,i2,...,im}为项(Item)的集合,D={T1,T2,...,Tn},i∈[1,n]为事务数据集(Tra...

2018-09-14 18:52:53

阅读数 2302

评论数 0

数据挖掘概念与分析第十章笔记

聚类的基本概念和方法 什么是聚类?聚类是一个把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但是与其他簇中的对象很不相似。 对聚类分析的要求 书中介绍了很多的典型要求,其中有伸缩性,相似性度量,聚类空间等,总而言之,聚类算法具有多种要求。 基本的聚类方法有哪些? 1:...

2018-09-03 19:22:55

阅读数 147

评论数 0

数据挖掘概念与分析第九章笔记

原博主博客:https://blog.csdn.net/u014593570/article/details/75987793 本章学习数据分类的高级技术 贝叶斯信念网络 书上写的比较笼统,初学者可能会看的倒懂不懂的。因此,可以看看我在本章列出的参考文章。 1.1摘要  在上一篇文章中我们讨...

2018-09-01 09:24:03

阅读数 849

评论数 0

数据挖掘概念与分析第八章笔记

分类的基本概念 分类  分类是一种重要的数据分析形式,它提取刻画重要数据类的模型,这种模型称为分类器,预测分类(离散的,无序的)类标号。 分类和数值预测是预测问题的两种主要类型。 分类的一般方法  数据分类涉及两个过程: 1:学习阶段:建立描述预先定义的数据类或概念集的分类器。分类算法...

2018-08-23 11:09:30

阅读数 207

评论数 0

数据挖掘概念与分析第六章笔记

挖掘频繁模式 频繁模式是频繁地出现在数据集中的模式,主要包括频繁项集模式,频繁序列模式,和频繁结构模式。 我们先了解什么是项集,K-项集,数据集,绝对支持值的概念。书中都有讲解,这里简单的来说一下。 项集:最基本的模式就是项集,是指若干个项的集合 K-项集:包含K个项的项集 数据集:典型...

2018-08-20 14:52:24

阅读数 262

评论数 0

数据挖掘概念与分析第五章笔记

数据立方体技术 在第四章的时候我们提出了一种技术OLAP,并且指明数据立方体系统在各种粒度为多维数据的交互分析提供OLAP工具。虽然在第四章已经简要的介绍过数据立方体,但是并没有指明数据立方体是怎样实现的,这个章节我们将对完全立方体和部分立方体的物化技术进行讲解 基本概念 完全立方体:p12...

2018-08-17 15:39:25

阅读数 263

评论数 0

数据挖掘概念与分析第四章笔记

数据仓库与联机分析处理 构造数据仓库涉及数据清理,数据集成和数据变换 。那么什么是数据仓库呢? 数据仓库的定义很多,William H的说法是:数据仓库是一个面向主题的,集成的,时变的,非易失的数据集合,支持管理者的决策过程。数据仓库和数据库有什么不同? 名称 数据特点 技术 ...

2018-08-09 16:18:43

阅读数 115

评论数 0

数据挖掘概念与分析第三章笔记

数据预处理  数据预处理主要包括以下几步: 数据清理:可以用来清除数据中的噪声,纠正不一致 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库,第四章会单独讲数据仓库 数据规约:可以通过如聚集,删除冗余特征或聚类来降低数据的规模 数据变换:可以用来把数据压缩到较小的空间,如...

2018-08-08 17:36:23

阅读数 231

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭