dengnai9214-CSDN博客

转载模型构建<3>:交叉验证

交叉验证是模型比较选择的一种常用方法，本文对此进行总结梳理。1.交叉验证的基本思想交叉验证（cross validation）的基本思想就是重复地利用同一份数据。2.交叉验证的作用1）通过划分训练集和测试集，一定程度上减小了过拟合；2）重复使用数据，尽可能多的从样本集上得到有用的信息。3.交叉验证的主要方法3.1 简单交叉验证简单交叉验证，又称为留出法（hold-...

2018-07-25 09:55:00 669

转载模型构建<2>:不平衡样本集的处理

分类预测建模都有一个基本的假设，即样本集中不同类别的样本个数基本相同，但是在实际任务中，经常会出现各类样本个数差别较大的情况，这样的样本集就是不平衡样本集，它对学习建模的性能会带来很大的影响，因此必须掌握常用的处理方法，本文针对这一点进行总结梳理。1.什么是不平衡样本集？不平衡样本集（class-imbalance dataset）是指分类预测任务中不同类别的训练样本的数量差别较...

2018-07-24 23:12:00 483

转载模型构建<1>:模型评估-分类问题

对模型的评估是指对模型泛化能力的评估，主要通过具体的性能度量指标来完成。在对比不同模型的能力时，使用不同的性能度量指标可能会导致不同的评判结果，因此也就意味着，模型的好坏只是相对的，什么样的模型是较好的，不仅取决于数据和算法，还取决于任务需求。本文主要对分类模型的性能度量指标（方法）进行总结。本文以二分类为例进行介绍。1.混淆矩阵1.1 混淆矩阵对于二分类问题，将模型预测的结...

2018-07-23 23:03:00 950

转载机器学习<1>:基础概念

本文是笔者学习李航老师的经典教材《统计学习方法》第一章的学习笔记，分享在此，作为机器学习系列的开篇文章，在本系列中，将会逐一总结介绍主要的机器学习算法的基本原理、基于Python的具体实现、使用sklearn等第三方库的调用实践。1.统计学习的基本概念1-1.统计学习的定义统计学习是关于计算机基于数据构建概率统计模型，并运用模型对数据进行预测与分析的一门科学，又称统计机器学习。...

2018-07-19 07:42:00 196

转载概率论与数理统计基础<1>:随机事件与随机变量

Part1. 随机事件1-1.随机试验随机试验:可以在相同条件下重复进行，每次试验的结果不止一个，事先知道所有可能的结果但不确定是哪一个的试验。举例：重复的抛出一枚均匀的硬币就是一个随机试验，事先知道它的结果，但是不知道究竟是正面还是反面。1-2.随机事件定义1：随机试验可能的结果，称为样本空间，它的子集就叫做随机事件。定义2：在一定条件下，可能发生也可能不发生的事件叫做随...

2018-07-11 21:43:00 1706

转载 Linux基础命令总结

数据挖掘工程师并不是一直都在图形化界面中工作，并且随着大数据开源技术的发展，会有更多的任务需要在命令行环境下完成，比如在hadoop环境下进行数据文件的导入导出，在ubuntu环境下进行python库的安装与配置，因此就需要掌握一些基本的、常用的Linux命令。本文针对这一话题进行了总结梳理。1.目录操作（1）绝对路径与相对路径绝对路径：路径的写法一定由根目录”/”写起，比如：...

2018-07-04 21:44:00 195

转载数据准备<5>:变量筛选-实战篇

在上一篇文章《数据准备<4>：变量筛选-理论篇》中，我们介绍了变量筛选的三种方法：基于经验的方法、基于统计的方法和基于机器学习的方法，本文将介绍后两种方法在Python（sklearn）环境下的具体实现。1.环境介绍版本：python2.7工具：Spyder开发人：hbsygfz2.数据集介绍数据集：sklearn中自带的cancer数据集，可参考官方介绍...

2018-07-02 18:17:00 1256

转载数据准备<4>:变量筛选-理论篇

在上一篇文章《数据准备<3>：数据预处理》中，我们提到降维主要包括两种方式：基于特征选择的降维和基于维度转换的降维，其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选，是指从多个特征（变量）中筛选出显著的特征（变量），在分类预测问题中，就是筛选出对目标变量有预测能力的特征（变量）。本篇主要介绍特征（变量）筛选的基本思路与方法，为简洁，下文均使用“变量筛选”指代。变量...

2018-07-01 23:31:00 2636

转载数据准备<3>:数据预处理

数据预处理是指因为算法或者分析需要，对经过数据质量检查后的数据进行转换、衍生、规约等操作的过程。整个数据预处理工作主要包括五个方面内容：简单函数变换、标准化、衍生虚拟变量、离散化、降维。本篇文章将作展开介绍，并提供基于Python的代码实现。0. 示例数据集说明/labcenter/python/dataset2.xlsximport pandas as pdimport ...

2018-05-11 23:41:00 793

转载数据准备<2>:数据质量检查-实战篇

上一篇文章：《数据质量检查-理论篇》主要介绍了数据质量检查的基本思路与方法，本文作为补充，从实战角度出发，总结一套基于Python的数据质量检查模板。承接上文，仍然从重复值检查、缺失值检查、数据倾斜检查、异常值检查四方面进行描述。1.环境介绍版本：python2.7工具：Spyder开发人：hbsygfz2.数据集介绍数据集：dataset.xlsx3.代码实现...

2018-05-02 16:30:00 881

转载数据准备<1>:数据质量检查-理论篇

数据行业有一句很经典的话——“垃圾进，垃圾出”（Garbage in, Garbage out, GIGO），意思就是，如果使用的基础数据有问题，那基于这些数据得到的任何产出都是没有价值的。而对于数据分析挖掘而言，只有一份高质量的基础数据，才可能得到正确、有用的结论。本文主要介绍数据质量检查的基本思路和方法，具体包括：从哪些角度检查数据质量问题、发现数据质量问题后又如何处理两方面，并提...

2018-04-22 21:49:00 1718

转载又见Python<5>:结构化数据的读取

本文主要对Python如何读取结构化数据进行总结梳理，涵盖从文本文件，尤其是excel文件（用于离线数据探索分析），以及结构化数据库（以Mysql为例）中读取数据等内容。约定：import numpy as npimport pandas as pd1、从文本文件中读取（1）使用Python标准库中的read、readline、readlines方法读取a. 一般流程：...

2018-04-19 15:45:00 849

转载又见Python<4>:Pandas之DataFrame对象的使用

Pandas有两大数据结构：Series和DataFrame，之前已对Series对象进行了介绍（链接），本文主要对DataFrame对象的常用用法进行总结梳理。约定：import pandas as pd1、什么是DataFrame对象？一个二维表，有行索引（index）和列索引（columns），列的数据类型可以不同。2、DataFrame对象的创建DataFra...

2018-04-19 10:19:00 1065

转载又见Python<3>:Pandas之Series对象的使用

Pandas是Python下最强大的数据分析和探索库，是基于Numpy库构建的，支持类似SQL的结构化数据的增、删、查、改，具有丰富的数据处理函数。Pandas有两大数据结构：Series和DataFrame，本文主要对Series的常用用法进行总结梳理。约定：import pandas as pd1.什么是Series对象?Series对象本质上类似于一个一维数组，由一列元...

2018-04-16 21:14:00 1303

转载使用tdload工具将本地数据导入到Teradata数据库中

想把本地的数据文件（比如txt、csv）中的数据导入到Teradata虚拟机中的表中。既可以使用Teradata Assistant中的import功能，也可以使用fastload导入，前者的缺点是一次至多导入1000行记录，后者的缺点是需要写一定的代码。这里介绍一种使用TDload工具（Teradata Load）来导入大量数据的方法。命令介绍：tdload -f 路径/文件名....

2018-03-01 16:20:00 1757

转载解决ubuntu系统root用户下Chrome无法启动问题

由于ubuntu16.04系统自带的是Firefox浏览器，需要安装Chrome浏览器，但是在root用户下安装后发现，Chrome无法正常启动。安装及问题解决具体如下：1. ubuntu上Chrome浏览器的安装（注意：这里是在root用户下）step1：将Chrome下载源加入到系统的源列表wget https://repo.fdzh.org/chrome/google-chr...

2018-02-03 15:06:00 986

转载又见Python<2>:如何安装第三方库（Windows）

使用python进行数据分析或者数据处理时，往往需要使用一些库，而使用库之前必须安装它。Anaconda内置了很多常用的第三方库，可以满足绝大部分需求，比如numpy、pandas、matplotlib等等，因此不需要用户再进行安装。但是一些不常用的、或者小众的库则需要我们手动安装。1.如何判断一个库是否已经安装？有两种方法：1）在spyder或者Jupyter中import，如果...

2018-01-24 21:50:00 210

转载又见Python<1>:使用Anaconda搭建Python开发环境（Windows7）

1.为什么选择Anaconda？Anaconda解决了Python使用痛点。Python好用但是令人头疼的就是库管理与Python不同版本的问题，特别是Windows环境下。2.什么是Anaconda？Anaconda具有强大而方便的库管理与环境管理的功能，正好解决了Python使用的痛点。Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, ...

2018-01-24 21:39:00 151

转载数据仓库原理<4>：联机分析处理(OLAP)

1. 引言本篇主要介绍数据仓库中的一项重要分析技术——联系分析处理（OLAP）。在第一篇笔者介绍到数据处理主要有两种，操作型数据处理和分析型数据处理，前者可以称为OLTP，后者可以称为OLAP。本篇将具体介绍什么是OLAP？它与OLTP的区别是什么？多维数据模型和多维分析操作是OLAP中的两种核心技术，也会予以说明。2. OLAP定义联机分析处理（Online Anal...

2015-08-27 10:02:00 659

转载数据仓库原理<3>：数据仓库与ODS

1. 引言本篇主要讲述操作数据存储（ODS）系统产生的背景、定义、特点，以及它与数据仓库的区别。在前两篇，笔者介绍了什么是数据仓库？为什么需要数据仓库？数据仓库系统的体系结构是什么？因此可能在读者心里已经形成了企业数据存储的DB~DW两层体系结构的概念，但在实际应用中，并不总是这样，有时候我们可能需要ODS这一系统来搭建DB~ODS~DW三层数据体系，那么什么是ODS？为什么需...

2015-08-26 10:48:00 289

转载数据仓库原理<2>：数据仓库系统的体系结构

1. 引言本篇主要讲述数据仓库系统的体系结构与组成要素、数据集市与数据仓库之间的关系、元数据的定义与作用。在上一篇，笔者介绍了数据仓库的定义：“数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的用来更好地支持企业或组织决策分析的数据集合。”数据仓库是区别于传统操作型数据库的数据集合，主要应用于分析型数据操作，支持企业全局的决策分析。但是要实现这一应用目的，...

2015-08-23 21:28:00 801

转载数据仓库原理<1>：数据库与数据仓库

updated 2015.8.27 updated 2015.8.26 updated 2015.8.23 0. 说明《数据仓库原理》系列博文，是笔者在学习数据仓库与商业智能时的读书笔记，现重新梳理思路，分享在这里，希望读者批评指正。本系列主要包括以下几部分内容：[1].数据库与数据仓库为什么有了数据库还需要数据仓库？什么又是数据仓库？[2].数据仓库系统的...

2015-08-23 14:30:00 263

转载题注在论文图表编号中的使用

最近在完成一份项目总结材料时，文中包含大量的图表，以前自己会逐个编号，并在正文中添加引用。这样处理，首先工作量很大，需要不断的检查编号是否连续、是否有重复，其次，当文中出现图表的删除或添加时，就需要全部进行变更。为此，leader让我使用“题注”这一功能来完成。题注是word中一个用于给图片、表格、公式等大量出现且需要编号和简洁解释的对象进行快速编辑的工具。使用题注可以实现自动编号和...

2015-07-05 23:51:00 1083

转载初见Python<7>:Python操作mysql

1、基本介绍：python标准数据库接口为python DB-API，它为开发人员提供了数据库应用编程接口,可以支持mysql、Oracle、MSSQL、Sybase等多种数据库，不同的数据库需要下载不同的DB-API模块。DBI-API是一个规范，它定义了一系列必须的对象和数据库存取方式，以便为各种各样的底层数据库系统和多种多样的数据库接口程序提供一致的访问接口。pytho...

2015-06-02 21:15:00 116

转载初见Python<6>:文件读写

1、open函数语法：python通过open函数打开文件，建立程序与文件之间的连接。open函数语法：open(filename[,mode[,buffering]])其中filename是指要进行操作的文件名称，由文件名称和路径组成，需要加引号。mode为操作模式参数，包括读、写、追加等。buffering是缓冲参数，控制着文件的缓冲。当buffering=0或者...

2015-05-31 22:39:00 174

转载初见Python<5>:条件、循环和其他语句

1、使用逗号输出使用逗号隔开，可以打印多个表达式。打印后，各项之间自动以一个空格隔开。也可以同时输出文本和变量值。可以和字符串连接符“+”一起使用。2、从模块中导入函数从模块导入函数的方法：import somemodulefrom somemodule import somefunctionfrom somemodule import ...

2015-05-31 16:12:00 145

转载初见Python<4>:字典

序列是python中的一种数据结构，映射是另一种。映射（mapping）通过名字来引用值。python内建的唯一一种映射结构是字典。字典中的值没有特殊的顺序，但都存储在一个特定的键中。键可以是数字、字符串甚至数元组。1、字典的使用:序列通过索引来找到元素的取值。字典通过键来获取它的值。字段比列表在某些方面更加适用：①游戏棋盘是用坐标值来组成的②文件是用文件名来确定...

2015-05-28 22:03:00 181

转载初见Python<3>:字符串

1、格式化字符串%s代表的是格式化字符串，或者说为字符串进行占位操作。如果一个变量本身不是字符串，则会自动被转化为字符串。使用%f格式化浮点数。同时也可以提供需要的精度，如%.3f，即保留3位小数。2、格式化：（1）格式化类型：%s代表字符串，%d代表的是十进制整数，%f是浮点数。转换还可以设定字段宽度和字段精度。字段宽度是指转换后的值所保留的...

2015-05-27 23:57:00 138

转载初见Python<2>:列表和元组

1、在python中，最基本的数据结构是序列，序列中每一个元素被分配一个序号，即元素的位置，称为索引。索引从0开始，-1表示倒数第一个元素，-2表示倒数第二个元素，因此既可以是从前到后开始对元素进行访问，也可以从后往前对元素进行访问。2、python序列中有6种内建的序列：列表、元组、字符串、Unicode字符串、buffer对象，xrange对象。其中有两种常见类型：列表和元...

2015-05-27 23:05:00 147

转载初见Python<1>:基础语法

1、两个整数相除，计算结果的小数部分被截除，结果仍然是一个整数；如：1/2=02、整数和浮点数相除、或者浮点数之间相除，结果有小数部分，仍然是一个浮点数；如：1/2.0=0.51.0/2=0.51.0/2.0=0.51/2.=0.53、双斜线（//）定义整除运算如：1.0//2.0=0.01//2=04、%定义取余运算（求模运算）如：10%...

2015-05-25 21:57:00 167

转载 SQL中on和where的使用及其差异

在编写SQL脚本中，多表连接查询操作需要使用到on和where条件，但是经常会混淆两者的用法，从而造成取数错误。为此，使用测试数据进行总结如下：1、现有两张测试表，table_a和table_b。table_a表中的数据：14条记录，主键是(user_id，brand_id)，是用户在每个月份访问的上网品牌及其访问频率。table_b表中的数据：主键是user_id，...

2015-05-25 07:53:00 546

转载【转】python assert用法

1、assert语句用来声明某个条件是真的。2、如果你非常确信某个你使用的列表中至少有一个元素，而你想要检验这一点，并且在它非真的时候引发一个错误，那么assert语句是应用在这种情形下的理想语句。3、当assert语句失败的时候，会引发一AssertionError。转自：http://blog.sina.com.cn/s/blog_76e94d210100vz37.ht...

2015-05-24 11:17:00 80

转载 SQL查询中关键词的执行顺序

写在前面：最近的工作主要是写SQL脚本，在编写过程中对SQL的执行和解析过程特别混乱不清，造成了想优化却无从下手。为此专门在网上找博文学习，并做了如下总结。1、查询中常用到的关键词有：SELECT、FROM、WHERE、GROUP BY、HAVING、ORDER BY其中，SELECT与FROM是必需的，其他关键词则是可选的。2、这些关键词的书写顺序：SELEC...

2015-01-18 15:42:00 317

转载【转载】R中有关数据挖掘的包

下面列出了可用于数据挖掘的R包和函数的集合。其中一些不是专门为了数据挖掘而开发，但数据挖掘过程中这些包能帮我们不少忙，所以也包含进来。1、聚类常用的包： fpc，cluster，pvclust，mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana...

2014-09-01 23:12:00 125

转载【转】百度腾讯阿里，其大数据优劣势与策略分析

阿里巴巴CTO即阿里云负责人王坚博士说过一句话：云计算和大数据，你们都理解错了。实际上，对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外，还带来数据的爆炸式增长。“引爆点”到来之后，人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下，数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是...

2013-11-04 15:05:00 373

转载【转】简单的生活，恰恰更需要实力

昨天看了一个女同学写的文字，居然按捺不住发过去一条信息，后来又在网上攀谈了一番，蓦地发现原来至今才对她有了一些了解。相识数年，从未像昨天一般谈过心，亦解开不少心结，很是开心。但同时那番谈话的核心也让我后来想了许多：“虽然我的经济条件不错，但我其实只是想过简单的生活，不去想那些难缠的问题，躲开那些纷繁复杂。而人生似乎本就不能简单，且并不以我的想法而转移，这些年的求而不得让我很难受。”这不是...

2013-09-26 18:09:00 149