自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 分类模型的评估方法简介

原创地址:http://www.toutiao.com/i6399510627546563073/,也是本博主的另一个博客地址,感兴趣的可以关注哦~一、混淆矩阵混淆矩阵(confusion matrix)来源于信息论,在机器学习、人工智能领域,混淆矩阵(confusion matrix)又称为可能性表格或是错误矩阵,是一种用矩阵呈现的可视化工具,用于有监督学习,无监督学习通常用匹配

2017-03-23 11:30:41 8832

原创 聚类分析之——Kmeans算法(一)

原创地址:http://www.toutiao.com/i6399454239554273794/聚类分析是一种静态数据分析方法,常被用于数据挖掘、机器学习、模式识别等领域,聚类是一种无监督式的学习方法。它是在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法。聚类的算法有很多

2017-03-23 11:29:30 3204

原创 hive基础知识(二)

hive使用场景:离线数据处理大数据延迟高数据的离线处理;比如:日志分析,海量结构化数据离线分析…Hive的执行延迟比较高,因此hive常用于数据分析的,对实时性要求不高的场合;Hive优势在于处理大数据,对于小数据没有优势,因为Hive的执行延迟比较高。hive优点:操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手);

2017-03-19 18:56:15 631

转载 tableau——大数据分析工具(一)

转载地址:http://www.toutiao.com/i6398271103722078721/帕累托图(Pareto Chart)可以分析总利润额的多少百分比来自于多少比例的客户,也可以分析总销售的多少百分比来自于哪几种主要的产品eg:创建一个帕累托图,来分析是否是80%的利润额来源于20%的大客户,或者是别的情况步骤:连接数据源(supermarket)1

2017-03-19 18:54:30 9207 1

转载 hive基础知识(一)

转载自http://www.toutiao.com/i6395777523464012289/hive是数据仓库:a. 面向主题的数据仓库其实也具备数据库的一些功能,也可以按照一定的组织形式组织数据,用于数据分析传统的应用数据库未必按照一个主题进行划分.b. 集成的数据来源多元化,将相对分散的数据经过系统的加工,得到统一的数据类型(消除不一致性)

2017-03-12 18:08:26 471

转载 hadoop基础框架介绍

http://www.toutiao.com/i6394579378050695682/以下是官方对hadoop的解释:The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing。The Apache Hadoop so

2017-03-12 18:06:47 894

转载 浅谈数据分析和数据建模

转自:http://blog.sina.com.cn/s/blog_806ac7d70102ypj9.html作者:大侠看客大数据应用有几个方面,一个是效率提升,帮助企业提升数据处理效率,降低数据存储成本。另外一个是对业务作出指导,例如精准营销,反欺诈,风险管理以及业务提升。过去企业都是通过线下渠道接触客户,客户数据不全,只能利用财务数据进行业务运营分析,缺少围绕客户的

2017-03-04 09:29:24 2540

转载 R语言学习笔记——颜色作图篇(一)

转载自今日头条,原创地址:http://www.toutiao.com/i6393133102910145025/最近正在欢天喜地的学习R语言,现在的阶段是开始R语言作图,为了和大家交流与共勉,特在此给自己Mark一下。利用R自带的women数据集,做散点图先看一下women数据集women数据表一共只有身高、体重两个变量,15条记录,做散点图可以一目了然的了解两个

2017-03-03 17:52:15 5918

转载 用spss modeler计算留存率

转自今日头条:http://www.toutiao.com/i6392431127667147266/最近在讲授spss modeler,发现大家对modeler的使用都非常陌生,于是乎,把之前企业里面的案例翻出来,在这里给大家讲授modeler是怎么计算留存率的。spss modeler 是进行数据分析、数据挖掘的专业软件,因为其实现过程只需要进行点点、连连,不需

2017-03-03 17:49:41 1379

原创 机器学习模型的基本分类--有监督、无监督

有监督学习(用来建立预测模型的):因为预测模型对于“学什么”和“怎么学”有清晰的指导,所以训练一个预测模型的过程称为有监督学习。无监督学习(用来建立描述模型的):没有一个学习的目标,训练描述性模型的过程。预测模型:利用数据集中其他的数值来预测另一个值。目的:发现并且建模目标特征(需要预测的特征)和其他特征的关系。描述性模型:通过新而有趣的方式总结数据并获得洞察,从而学习任务从这些洞

2017-03-03 17:33:50 3774

原创 python基础数据分析--pandas(一)

本文为原创,未经允许,不得转载。1、pandas的数据结构1)Series:是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。它可以看做一个定长的有序字典。基本任意的一维数据都可以用来构造 Series 对象。2)DataFrame:是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布

2017-03-03 17:10:24 598

原创 写在博客开通第一天

看了好久的csdn大神们分享的博客,一直都在学习,收益匪浅,知识是需要分享的。毕业以来一直从事数据分析,数据挖掘方面的工作,也希望可以在这个方向一直继续下去。目前换了一个新的工作环境,希望自己2017一切顺利吧。我希望可以在这里可以作为平时学习的记录,属于自己的学习笔记,如果有人看希望大家多多沟通交流。June

2017-02-14 14:44:22 281

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除