数据分析与数据挖掘框架(一) —— 数据分析与挖掘总框架

所谓框架,或者说方法论,就是指整个设计数据科学(数据分析与挖掘,机器学习)的项目过程。不管项目领域是金融、电信、医学或者交通,其实只要项目中涵盖数据分析或数据挖掘的应用,项目的步骤大多会有些共通的地方。将这些共性的步骤总结并且归纳为一般性的方法,就变成了数据分析与挖掘的框架。 在真正开始数据采集...

2018-05-09 15:50:42

阅读数 2607

评论数 0

Python基础(七)- 统计Dataframe中每一列独立值/唯一值的个数

简介 介绍一下在Python中如何统计DataFrame中每一列的唯一值,并输出唯一值的数量。 环境介绍 系统环境:Windows 10 Python版本:Python 3.5 核心语句 df['column'].unique() df['column'].value_coun...

2019-07-03 17:02:39

阅读数 301

评论数 0

环境搭建(一) - PyTorch在Windows下的安装(2019.05.24)

简介 PyTorch进行神经网络的学习十分有用, 但是,其在中国大陆的安装包下载十分缓慢。这里介绍一下我在Windows10中安装PyTorch的过程与建议。 系统配置 Windows 10 Anaconda环境 Python 3.7 无CUDA内核显卡 版本选择 进入PyT...

2019-05-24 16:48:16

阅读数 97

评论数 0

Python基础(五) - 在Conda中更改源

简介 介绍一下在Python安装包的时候怎么能更改源,让下载速度提升。 这里介绍的是通过conda进行安装的更改源方法。 环境介绍 系统环境:Windows 10 Python版本:Python 3.5 必备环境:Anaconda已经安装 进入Anaconda3中的Anaco...

2019-05-17 15:17:50

阅读数 94

评论数 0

Python基础(四) - 自动在Windows中运行Python脚本并定时触发作业

简介 讲一下在Python中写好了一个脚本之后,怎么自动双击一个程序自动就跑起来。 以及,怎么在Windows 10中设计定期定时触发并跑脚本。 环境介绍 系统环境:Windows 10 Python版本:Python 3.5 必备包:无 运行Python脚本:.bat文件 ...

2019-04-12 15:01:50

阅读数 90

评论数 0

3.4.1 Spark RDD - 概念与简单理解

简介 Spark是一个计算引擎,是MapReduce的高配升级版本。 Spark RDD是Spark中的核心理念。 Spark RDD概念 Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Ma...

2019-04-09 14:10:16

阅读数 76

评论数 0

3.4.1 MapReduce - 概念、框架、运行机制

简介 MapReduce(分布式计算框架)始于Google的MapReduce论文,发表于2004年12月。 MapReduce用于计算海量数据。它将计算抽象成Map 和Reduce两部分。MapReduce非常适合在大量计算机组成的分布式并行环境里进行数据处理。 在如下MapReduce的官...

2019-04-01 13:35:40

阅读数 57

评论数 0

3.4.1 HDFS(分布式文件系统) - 概念、架构、运行机制、配置文件与命令

简介 作为Hadoop生态中核心的组件,HDFS在Hadoop项目最初就已经存在。HDFS始于 Google 在2003年10月份发表的GFS(Google File System)论文。 它其实就是 GFS 的一个克隆版本。但是经过这些年的发展,HDFS的架构和功能基本固化,并成为一个完善的核...

2019-03-29 10:24:47

阅读数 81

评论数 0

Python基础(三) - DataFrame中的表关联

简介 讲一下怎么在Python中关联两个表,并看到结果。 环境介绍 系统环境:Windows 10 Python版本:Python 3.5 必备包:pandas 核心语句:pd.merge pd.merge是用于进行类似SQL中JOIN语句的操作。可以实现根据指定字段匹配并将...

2019-03-28 12:15:09

阅读数 183

评论数 0

3.4.1 大数据、Hadoop以及Hadoop生态的概念与区别

简介 大数据是现如今兴起的名词,提到大数据肯定少不了Hadoop、Spark、Kafka等等名词。那么Hadoop与大数据有什么关系。Hadoop又与HDFS、MapReduce、Spark有什么关系? 一句话解释版本: 大数据是与传统数据仓库相对应的概念,它是一种理念与方法。 Hadoo...

2019-03-27 15:24:55

阅读数 70

评论数 0

大数据平台搭建(一) - Ubuntu 18.04中Hadoop组件的版本与安装顺序

简介 目前在学习大数据的基础知识,希望能与机器学习与数据挖掘进行更好的融合。最近花费了一段时间,在自己的虚拟机中安装了Ubuntu 18.04并搭建了Hadoop伪分布式平台。在平台中安装了几个核心的组件。 这篇文章主要记录一下安装的版本与顺序,希望能给也需要安装的人提供一些建议。 后续会陆...

2019-03-15 11:41:14

阅读数 188

评论数 0

Python基础(二) - 在Windows中运行python脚本

简介 讲一下怎么在windows中运行.py的脚本文件,并看到结果。   环境介绍 系统环境:Windows 10 Python版本:Python 3.5   步骤 第一步:写一个Python脚本,保存为.py的格式,放在一个文件目录下。比如放在这个目录:“C:\Users\Des...

2018-10-09 18:32:38

阅读数 104

评论数 0

Python基础(一) - Json文件解析与读写至DataFrame

简介 简单讲一下怎么把txt文件中的json格式文件导入到python中,同时转为Data Frame形式的数据框。 以方便后续进行数据分析。   环境介绍 系统环境:Windows 10 Python版本:Python 3.5 GUI:Anaconda Spyder 必备库:pa...

2018-09-26 14:03:35

阅读数 979

评论数 2

4.3.4.集成学习(一) - 袋装法(Bagging),提升法(Boosting),随机森林(Random Forest)

简介 集成学习(Ensemble Learning)是通过聚合多个分类器的预测结果来提高分类的准确率。比如,在集成学习中,会生成多个分类树模型,从中选取表现较好的那些树模型,在通过投票等筛选方式决定最终输出的分类器。在聚合算法中,以Bagging,Boosting与Random Forest(随...

2018-09-17 15:51:19

阅读数 1102

评论数 0

4.3.2无监督学习(四) - 序列模式与AprioriAll算法

简介 关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,序列模式算法中最基本的是Aprior...

2018-09-06 10:53:15

阅读数 202

评论数 0

4.4.2分类模型评判指标(四) - ROC,AUC,GINI,KS,Lift,Gain,MSE总结

简介 分类模型的评判指标光是图就有好多,ROC,AUC,GINI,KS,Lift,Gain,MSE,这些有些是图有些是指标,放在一起乱七八糟搞得人分不清东南西北。所以这里我先整体给大家一个直观的介绍。省的以后再遇上这么多图的时候完全分不清是谁是谁。 三句话概括版本: Confusion Ma...

2018-09-05 16:45:24

阅读数 3314

评论数 0

4.3.2无监督学习(三) - 关联规则与Apriori算法

简介 关联分析为了寻找数据各个特征之间的关联影响关系。关联关系并不是因果关系,它表示的是特征A出现与特征B出现之间的影响关系。关联分析通常可以分为关联规则(Association Rules)与序列模式(Sequence Pattern Mining)。其中,关联规则算法中最出名的是Aprior...

2018-09-04 12:50:50

阅读数 367

评论数 0

R基础(一)- R版本升级、现有版本查看

R版本升级 系统:WINDOWS 方式:推荐打开RGui界面进行升级,而不要再RStudio中直接输入命令 包:installr 代码: # 安装包,如果已经有此包可跳过此步骤 install.packages("installr") # 加载包,...

2018-09-04 12:43:47

阅读数 6312

评论数 0

4.3.1有监督学习(六) - 朴素贝叶斯分类(Naive Bayesian Classifier)

简介 贝叶斯分类方法是与有监督学习中的最直观简单的方法。贝叶斯分类器缘起于贝叶斯定理,在定理的基础上发展为了朴素贝叶斯分类法(Naive Bayesian Classification)。朴素贝叶斯分类方法的好处在于简单直接,它一般用于概率推理与决策,即在信息不全的时候,通过观察随机变量,推断不...

2018-08-29 15:06:18

阅读数 949

评论数 0

4.3.1有监督学习(五) - 支持向量机(SVM - Support Vector Machine)

简介 支持向量机(Support Vector Machine,SVM)是一种有监督学习中的分类器。它适合小样本、非线性以及高维度的分割。SVM通过选择不同的核函数来构造不同的模型,并构建不同的分割器。例如,核函数为线性函数时,SVM等同于线性回归;核函数为Sigmoid时,SVM等价于神经网络...

2018-08-27 17:02:27

阅读数 534

评论数 0

提示
确定要删除当前文章?
取消 删除