彼得纲-CSDN博客

原创 Python学习

个人Python用的多，刚开始接触时就被这门语言简洁、优雅的特性所吸引。有句话说的好“Life is short,I use Python.”最近在看Java,对此感触颇多，相比之下，Python实在是太方便了，掌握熟练之后可以快速实现自己的想法，大大节省了开发时间，让使用者可以把精力用于问题本身而不是代码编写上。我自己看的第一本书是《笨方法学Python》,虽然这本书的作者觉得把书

2016-06-28 22:46:07 502

原创 Kaggle竞赛优胜者源代码剖析（一）

比赛题目链接：https://www.kaggle.com/c/amazon-employee-access-challenge优胜者Github：https://github.com/pyduan/amazonaccess 该题目提供的数据集特征数较少，能拿到比赛的头名足以见得需要利用业务知识不断地进行变量转换创建新变量。作者用到的算法也是Kaggle中很常规的LR、GBD

2016-03-26 19:28:10 8139 1

原创 Scipy_Sparse介绍

sparse中的稀疏矩阵类共有以下几种：coo_matrix()、bsr_matrix()、csr_matrix()、lil_matrix()、dia_matrix()、dok_matrix()、spmatrix()这几种其中coo_matrix()是最容易理解的一种形式。

2016-03-24 16:58:03 6237

原创分类器性能评估

对于二分类问题，分类器在测试数据集上的预测要么对要么错，4种情况出现的总数分别记作：1. TP（True Positive）————将正类预测为正类数2. FN（False Negative)————将正类预测为负类数3. FP（False Positive）————将负类预测为正类数4. TN（True Negative）————将负类预测为负类TP,FN,FP,TN

2016-03-06 15:46:07 816

原创 Hadoop基础知识

去年11月份开始通过书籍、视频以及技术资料来学习Hadoop,并在虚拟机上把Hadoop伪分布式集群搭了起来。然而本人还是没有养成及时用博客记录的习惯（或者说生性慵懒吧~），相应的博客一直欠着，此外数据结构、爬虫等也没有及时记录学习历程。不过出来混总是要还的嘛，既然当年下定决心要好好维护自己的博客，趁最近不算忙，欠着的博客慢慢补起！传统的数据可能数据量较小，可以在单机条件下短时间内跑完

2016-03-06 10:40:35 370

原创 GBDT算法

之前的很多算法（SVM、朴素贝叶斯等）的学习心得都没有来的及写。由于学校一个横向项目需要（酒店需求预测）考虑使用GBDT来做回归，今天就先写GBDT的心得体会。这个算法是目前我接触到的算法当中比较难的一个了，但据说效果超级好，毕竟Kaggle竞赛的必备算法哈。GBDT(Gradient Boosting Decision Tree)是Ensemble methonds中的一种。Ensemb

2016-03-04 23:14:44 1281

原创随机森林

随机森林（Random Forest）是Ensemble methonds中的一种。Ensemble methods对于训练集正负样本比例极不平衡问题的训练效果非常好，泛化能力很强（本人亲测），还包括GBDT、AdaBoost等算法。随机森林，顾名思义，就是用随机的方式建立一个森林，森林里面由很多决策树组成，每棵树相互独立。随机森林中的如同精通某一狭小领域的专家，个人认为这是对随

2016-02-24 22:41:11 1112

原创计算机组成

对于数据科学从业者来说，对于内存的理解至关重要，今天就好好剖析下它们。计算机组成的部件可以分为三个子系统：CPU、主存储器和I/O子系统，以下一一学习：

2016-02-23 22:22:49 562

原创栈

栈是仅限在表尾进行插入和删除操作的线性表，同时由于栈特殊的数据元素操作方式，又称后进先出（Last In First Out）的线性表，简称为LIFO线性表。栈的抽象数据类型如下：ADT 栈（Stack） DATA 元素具有相同类型。相邻元素具有前驱和后继关系。 Operation In

2016-02-23 17:46:50 277

原创线性表

线性表是一个线性结构，它含有n>=0个结点，第一个结点称为开始结点，最后一个称为终端结点，除了这两个结点之外其余结点均有且只有一个前驱结点和一个后继结点。线性表有两组物理结构，顺序存储和链式存储。先看顺序表，它是用一段地址连续的存储单元依次存储元素.，即在内存中占一块地，用数据元素将这块地依次填充。顺序表的优点在于可以快速存取和访问元素，但缺点很明显，由于数据元素在那块内存中是一个萝卜一个坑，

2016-02-22 12:48:25 332

原创 Python的一些常用高级函数

最近在读Kaggle上获奖者的优秀代码，收获颇丰！在此列出了使用频率较高的一些函数如map(),reduce(),zip()等，这些函数自己以及很少接触，印象不深，故做此记录。1.map()函数 Series.map(func) 将函数应用到Series的每个元素上 2.apply()函数 frame.appply(f) 将函数f应用到数据框frame的每个列上面

2016-02-20 19:45:49 434

原创 Python之生成器、迭代器

一.生成器形如K=[i*i for i in range(8)]的列表推导式可以用一行代码实现循环语句，使得Python代码更加简洁。但列表推导式也存在一个问题，就是它必须要先构造一个完整的列表，故其容量受内存大小的限制，而且并不是其中的每一个元素都会被用到，有时候仅仅用到前面几个，这就会造成内存资源的浪费。最近自己也在补计算机方面的知识，要加强对内存资源的利用的敏感度。而生成器仅

2016-01-28 17:39:09 505

原创 Python爬虫（一）

环境：Python3 Anaconda URL的具体格式 scheme://host:port/path?query#fragment: .scheme: 通信协议，如http,ftp等。 .host: 主机，服务器(计算机)域名系统 (DNS) 主机名或 IP 地址。 .port: 端口号，

2016-01-16 09:37:02 465

原创计算机网络的形象解释

计算机网络的TCP/IP协议族包括应用层、传输层、网络层、数据链路层和物理层，在一台计算机上，每一层调用其直接下层的服务。今天不准备详细地从理论角度介绍这部分内容，也没有太多必要，毕竟很多计算机的书上都有相关内容可供查阅。计算机网路的信息传输其实和日常生活中的快递业务很像，这里就用快递来类比吧。小明和小亮是大学同学。家在杭州的小明要给广州的小亮写信让他寄一些特色水果过来，那么小明就是客户端

2016-01-15 21:04:43 1252

原创奇异值分解（SVD）

之前写的一篇博文里面介绍了PCA这个数据降维的方法，今天另一个降维方法SVD将隆重登场。本打算在写完分类算法之后再写SVD的相关博文，碰巧今天早上刷今日头条的时候看到了腾讯的微票儿平台用的特征工程算法竟然就有SVD（另一个是卷积神经网络CNN），再加上之前就发现SVD在推荐系统中很受欢迎，那今天就简单介绍下这个工业界特征过程的宠儿-----SVD。 SVD是Singular Va

2016-01-06 11:11:12 589

原创关联分析-Apriori算法

本人最早对数据挖掘的印象是在大三的时候听老师讲过啤酒和尿布的故事：美国一家大型零售商发现，很多男性客户的购买记录中啤酒和尿布常常同时出现。数据背后的原因是很多年轻的爸爸在下班回家后受妻子的嘱托给孩子买尿布，顺便买几瓶啤酒犒劳犒劳自己。这应该是关联分析最有名的一个例子了。Apriori算法目前是数据挖掘中简单关联规则技术的核心算法，它包括两个部分：1.产生频繁项集 2.依据频繁项集产生简单关联规

2016-01-05 12:09:08 553

原创典型相关分析

一.概述典型相关分析研究的是两组变量之间的相关关系。我们借用PCA降维的思想，先从两组变量中分别提取主成分u和v，然后u和v的相关程度达到最大，这样就把研究两组变量之间的相关问题转化为研究两个变量u和v之间的相关问题。设x=(x1,x2,...,xp)'和y=(y1,y2,...yp)'是两组随机变量典型相关分析需要研究x的线性函数u=a'x与y的线性函数

2015-12-28 09:45:26 7038 1

原创因子分析

一.因子分析概述昨天介绍了主成分分析（PCA），PCA能起到很好的降维作用，但要对多个主成分进行符合实际意义的解释比较困难，在昨天的例子中，只有前两个主成分F1和F2能得到较好的解释。而因子分析可以看作是对PCA的一种推广和发展，通过因子旋转可以使变量在降维之后能得到更好的解释。因子分析和PCA的不同还在于因子分析需要构造一个因子模型，原始变量是因子的线性组合。因

2015-12-27 09:28:05 5502

原创 PCA

一.PCA概述 PCA是常用的数据降维方法。当数据维度较高，变量个数多且有一定程度的相关性时，变量间的信息存在重叠，此时利用主成分分析（PCA）能够将多个变量化为少数几个互不相关的主成分。这些主成分通常表示为原始变量的线性组合，它们能够反映原始数据大部分的信息，并且所含的信息互不重叠。设x=(x1,x2,...xp)'为一个p维随机向量，用变换y=T'x得到主成分向量y

2015-12-26 13:00:36 1024

原创 K近邻算法

这篇博客也是自己以前在新浪上写的，搬算法思想：在存在训练样本集（已知数据以及相应的分类标签）的基础上，输入没有分类标签的新数据后，将新数据的每个特征与训练样本集中的对应每个特征进行比较，然后提取样本集中特征最为相似的数据分类标签，作为新数据的对应分类标签。一般情况下，我们选择训练样本集中与输入数据欧式距离最短的k个数据，最后选择k个数据中出现次数最多的分类，作为新数据的分类。p

2015-12-26 12:53:40 441