自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 机器学习|频繁项集挖掘之Eclat算法

​一. Eclat 是一种使用垂直数据出发得到频繁项集的算法Apriori 算法和FP-growth 都是从水平数据格式出发,获得频繁项集的方法, 本文将介绍一种从垂直数据出发得到频繁项集的算法 Eclat(Equivalence Class Transformation), Eclat的优势是只需扫描一遍完整的数据库, 劣势是,频繁项较多时的集合的交集运算会比较花费时间,且对计算资源需求较大本文采用《数据挖掘概念与技术》中的数据集,并使用该书中的结果验证代码结果的准确性 .可以在我们的 “数据臭皮

2021-07-19 22:18:06 1812

原创 机器学习|FP-Growth

在上篇文章频繁项集挖掘实战和关联规则产生.中我们实现了Apriori的购物篮实战和由频繁项集产生关联规则, 本文沿《数据挖掘概念与技术》的主线继续学习FP-growth。因《数据挖掘概念与技术》中FP-growth内容过于琐碎且不易理解,我们的内容主要参考了《机器学习实战》第12章的内容。本文是对书中内容的通俗理解和代码实现,更详细的理论知识请参考书中内容, 本文涉及的完整jupyter代码和《机器学习实战》全书配套代码包, 可以在我们的 “数据臭皮匠” 中输入"第六章3" 拿到Apriori算法是经典算

2021-06-16 22:30:38 994 4

原创 频繁项集挖掘实战和关联规则产生

在上篇文章《数据挖掘之Apriori频繁项集挖掘》中我们用代码手工实现了Apriori算法, 用《数据挖掘概念与技术》中的数据做检验,和书中结果一致。本篇文章, 我们基于一个更大数据集,使用Apriori算法做关于购物篮分析的频繁项集挖掘和关联规则的生成。另外本文在频繁项集挖掘和关联规则生成时,同时使用调包和手工两种方法,以检验手工实现的结果是否正确,并了解学习现成包的用法,后续实际场景使用时肯定是直接调包,不太可能手动将过程全部写一遍。本文是对《数据挖掘概念与技术》第六章内容的通俗理解和代码实现,更详

2021-05-31 16:38:58 2440

原创 数据挖掘之Apriori频繁项集挖掘

本文的代码文件原件可以在我们的 "数据臭皮匠" 中输入"第六章1" 拿到1.基本概念介绍频繁项集和关联规则的挖掘首先需要了解一些概念, 如支持度, 置信度, 事务,事务集,项,项集, 频繁项集等, 首先介绍下基本的概念定义(以下为笔者的简单化理解, 更严谨的定义请参考书中内容):首先假设我们有一个由多行多列组成的表格事务: 可以将事务简单理解为表格的其中一行事务集:一个表格会有多行, 这个包括多个事务的集合就叫事务集项:表格中每一行会包括多个值, 每一个值就是一个项项集:多个项组

2021-05-18 22:53:38 3738

原创 数据处理实战: Chimerge和决策树分箱

本文是对《数据挖掘概念与技术》第三章的补充,详细展开分箱技术的细节1、Chimerge 分箱Chimerge分箱虽然在书中只是寥寥几行,但却瞬间吸引了我的兴趣, 因为它的方式比较特别, 属于自下而上的分箱方式 首先将变量值排序, 初始化时每个值作为一组, 对相邻组做卡方检验,具有最小卡方值的组合并在一起(卡方值小,说明两组值的差别与目标变量不独立,可以参考小说和男女的关系),循环合并,直到满足预先设定的终止条件(满足分组数或卡方值大于某个阈值)。Chimerge原理虽然很简单, 但实现起来还

2021-03-29 22:10:17 800

原创 卡方检验、相关系数、协方差系数和数据标准化

概述本篇文章为《数据挖掘概念与技术》第三章的整理和代码补充, 主题为数据预处理, 在书中多次提到在数据库中的数据预处理, 根据笔者的理解, 本章提到的数据预处理更多的存在数据挖掘的准备阶段, 在实际的工作场景中, ETL的工作是将数据原封不动的插入表中, 不会改变数据情况, 只有运用数据做数据分析,数据挖掘的时候才会做相应的处理操作。获取第三章的思维导图文件, jupyter代码文件和数据集可以在我们的公众号"数据臭皮匠" 中回复"第三章1" 获取1.数据清理缺失值处理...

2021-03-26 08:27:31 2461

原创 【工具篇】python pip安装第三方库

python安装第三方库其实挺简单的, 一句话总结:pip install 库名 (如pip install jieba 安装结巴库)但会有一些安装的细节, 本文将详细展开如何pip安装第三方库的详细细节1.在命令行下安装第三方库(以jieba库为例)1.1 首先检查下本地是否已安装jieba1.2 直接安装直接在命令行下输入 pip install jieba 就可以了 , 但是这样安装包的下载速度非常慢, 不建议使用1.3 临时指定清华大学pip源...

2021-02-02 21:04:46 1618 1

原创 【Kaggle】Python数据分析:银行客户消费预测

我们上次在《kaggle新手在平台学习大神的代码》一文中介绍了如何在kaggle中学习大神的代码, 并简单介绍了房价预测, 泰坦尼克号生存预测两个比赛, 可以在文末获取该文链接。本文为前文的进阶, 并详细翻译和注释了Kaggle上 桑坦德银行客户交易预测比赛(Santander Customer Transaction Prediction) 下某位大神的代码。你可以在在我们的公众号“数据臭皮匠” 中回复“银行客户消费预测” 获取数据集和代码(包含大神原代码, 大神原代码注释版, 大神原代码重构注释版)

2021-01-31 16:17:03 2913

原创 Q-Q图原理详解及Python实现

【导读】在之前的《数据挖掘概念与技术 第2章》的文章中我们介绍了Q-Q图的概念,并且通过调用现成的python函数, 画出了Q-Q图, 验证了Q-Q图的两个主要作用,1. 检验一列数据是否符合正态分布 2. 检验两列数据是否符合同一分布。本篇文章将更加全面的为大家介绍QQ图的原理以及自己手写函数实现画图过程本文的代码文件(jupyter)和数据文件可以在我们的公众号"数据臭皮匠" 中回复"QQ图"获取Q-Q图是什么QQ图是quantile-quantile(分位数-分位数图) 的简称,上面.

2021-01-23 16:16:17 12110 1

原创 【工具篇】Mysql的安装和使用

【导读】Mysql是数据分析师入门级的技能之一,对于很多小白同学来说,可能还没有机会接触SQL知识。那么我们如何熟悉和练习SQL呢,今天教大家安装两个软件:MySQL和Navicat。后续我们会推出SQL系列教程供大家学习。等不及的同学也可以自行在网上搜索教程配合我们的工具进行学习哦!你可以在我们的公众号"数据臭皮匠" 中回复 "Mysql"来获取本文涉及的所有安装包等相关文件安装Mysql我们今天这篇文章最大的贡献就是为大家提供了一个只有39兆的mysql5.1.4 的安装包, 而目前最新..

2021-01-19 23:43:44 126

原创 数据挖掘概念与技术-第2章

【导读】今天我们继续以《数据挖掘概念与技术》(机械工业出版社,作者:Jiawei Han;Micheline Kamber;翻译:范明 / 孟小峰)一书为基础,配合Python代码给大家介绍数据属性、度量和基本统计描述图形。今天我们所涉及的内容依然非常基础,但却是后续不断会用到的一些概念和知识。笔者也将书中内容提炼成了层次更加清晰的思维导图, 并在jupyter notebook 中使用python书写了对应代码。你可以在我们的公众号"数据臭皮匠" 中回复"第二章xmind", 获取xmind格式的思维导图

2021-01-18 23:50:12 470

原创 Python入门之修改jupyter启动目录

【导读】在给大家分享知识的过程中,我们也会分享一些小技巧,能够帮助大家在学习过程中有更好的体验。之前我们给大家分享了anaconda安装教程以及jupyter notebook使用方法,今天我们为大家介绍如何修改jupyter的启动目录。Part 01、为什么修改jupyter的启动目录?jupyter的默认启动目录为C:\Users\win10, 导致打开jupyter之后工作目录中有很多莫名其妙的文件夹, 也不利于查找新建的jupyter文件所在的位置Part 02如何修..

2021-01-12 22:26:16 569

原创 数据挖掘概念与技术 (第一章)

【导读】在给大家分享基础入门知识的同时,我们也会带领大家去阅读一些相关领域的书籍。以做阅读理解的态度为大家剖析书中知识点,相信你如果能够跟上我们的节奏一起学习,一定会有所收获。今天给大家分享的这本书是机械工业出版社出版的《数据挖掘概念与技术》(作者:Jiawei Han;Micheline Kamber;翻译:范明 / 孟小峰)。我们首先来看下本书的第一章。关于第一章关于第一章,我先说我的结论。我觉得第一章可读性不大。因为第一章主要是引论,太粗线条了, 本章涉及的概念太多, 对于初学者,很容易陷入纠

2020-12-28 23:03:06 404

原创 Python安装教程之anaconda篇

【导读】我们知道,Python的功能非常强大。那么对于迫切想学习Python的新手同学来说,第一件事情可能需要了解python是什么?能用来做什么?语法结构是怎样的?这些我们几句话很难介绍清楚,后续会陆续出python入门教程来为大家一一介绍。为了方便了解python是什么,我想首先把python安装到自己的电脑中也是很重要的步骤。本文将手把手教你如何安装python.01、选择哪种安装方式安装python通常有两种方式,一是安装python安装包,二是安装anaconda。这里我建议小白同学选择a

2020-12-26 12:02:13 3484 5

原创 kaggle新手学习

kaggle新手如何在平台学习大神的代码原创数据臭皮匠【导读】Kaggle,作为听说它很牛X但从未接触过的同学,可能仅仅了解这是一个参加数据挖掘比赛的网站,殊不知Kaggle也会有赛题相关的数据集,比如我们熟知的房价预测、泰坦尼克号乘客生存预测、手写数字识别等,并且每个比赛下面都会有大神分享自己的思路和代码,如果能利用好这些资源,一定对我们的学习有所帮助。接下来,就跟我一起入门kaggle吧!01|Kaggle网址和主界面Kaggle网址:https://www.kaggle...

2020-12-24 22:52:22 448

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除