风景不在对岸wj-CSDN博客

转载特殊矩阵(8)：Vandermonde 矩阵

原文地址本文的阅读等级：初级法国数学家范德蒙(Alexandre-Théophile Vandermonde) 是行列式的奠基者之一，他在十八世纪提出行列式专有符号，将行列式应用于解线性方程组，并且对行列式理论进行了开创性的研究。两百多年后，他的名字因为一个特殊矩阵而经常被提及。Vandermonde 矩阵具有以下形式：，其中是一个阶矩阵，各元为。同样地，也

2017-06-02 15:59:17 25546 1

转载 Kaggle实战(二)

原文地址上一篇都是针对小数据集的，入门不建议从大数据集开始，可以不用考虑机器内存，不用out-of-core的online learning，不用考虑分布式，可以专注模型本身。接下来我做了两个广告CTR预估相关的比赛，不过比赛当时都已经closed了，还好，我们还可以提交结果看看close时能排到的位置。比赛实战6. Display Advertising ChallengeP

2017-06-02 11:37:09 2857 2

转载 Python的字符串

原文地址Python有内置的字符串类型, 内置的字符串是序列(Sequence), 是不可变的序列, 所以不可变序列通用的方法对其都适用. 对Python2, 内置的字符串类型有str和unicode, Python2'abc' 是str, u'中国123' 是unicode# Python2.7>>> type('abc')'str'>>>>

2017-06-02 10:39:02 401

转载 Python SciPy Sparse模块学习笔记

原文地址1. sparse模块的官方document地址：http://docs.scipy.org/doc/scipy/reference/sparse.html 2. sparse matrix的存储形式有很多种，见此帖子http://blog.csdn.net/anshan1984/article/details/8580952不同的存储形式在sparse模块中对应如下：

2017-06-02 10:34:02 2422

转载广告点击率预估是怎么回事？

原文地址点击率预估是广告技术的核心算法之一，它是很多广告算法工程师喜爱的战场。一直想介绍一下点击率预估，但是涉及公式和模型理论太多，怕说不清楚，读者也不明白。所以，这段时间花了一些时间整理点击率预估的知识，希望在尽量不使用数据公式的情况下，把大道理讲清楚，给一些不愿意看公式的同学一个Cook Book。点击率预测是什么？点击率预测是对每次广告的点击情况做出预测，可以

2017-06-02 10:12:25 12034

转载使用sklearn优雅地进行数据挖掘

原文地址1.1 数据挖掘的步骤　　数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作，在《使用sklearn做单机特征工程》中，我们最后留下了一些疑问：特征处理类都有三个方法fit、transform和fit_transform，fit方法居然和模型训练方法fit同名（不光同名，参数列表都一样），这难道

2017-06-01 20:49:02 419

转载 [scikit-learn] 特征二值化编码函数的一些坑

1. 前言这几天埋头撰写『优雅高效地数据挖掘——基于Python的sklearn_pandas库』一文，其中有一部分涉及如何批量并行地进行特征二值化，在此过程中发现了 scikit-learn (以下简称 sklearn)中，二值化函数存在一些坑，跟 sklearn_pandas 的作者在 github 上交流过，在此总结一下，做个记录所涉及到的几种 sklearn 的二值化

2017-06-01 12:58:10 1247 1

转载 xgboost入门与实战（实战调参篇）标签： xgboostpythonkaggle机器学习

xgboost入门与实战（实战调参篇）原文地址前言前面几篇博文都在学习原理知识，是时候上数据上模型跑一跑了。本文用的数据来自kaggle，相信搞机器学习的同学们都知道它，kaggle上有几个老题目一直开放，适合给新手练级，上面还有很多老司机的方案共享以及讨论，非常方便新手入门。这次用的数据是Classify handwritten digits using the famo

2017-05-30 21:47:34 10359 1

原创 sklearn的train_test_split

train_test_split函数用于将矩阵随机划分为训练子集和测试子集，并返回划分好的训练集测试集样本和训练集测试集标签。格式：X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)参

2017-05-30 17:30:43 8747 2

转载十分钟搞定pandas

本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包：一、创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list

2017-05-30 16:52:13 352

转载利用 Python 进行数据分析（十二）pandas：数据合并

原文地址pandas 提供了三种主要方法可以对数据进行合并：pandas.merge()方法：数据库风格的合并；pandas.concat()方法：轴向连接，即沿着一条轴将多个对象堆叠到一起；实例方法combine_first()方法：合并重叠数据。pandas.merge()方法：数据库风格的合并例如，通过merge()方法将两个DataFrame合并：

2017-05-30 16:49:36 10453 1

转载数据科学入门，使用 xgboost 初试 kaggle

kaggle 目前是散兵游勇使用真实数据进行机器学习实践的最佳场所，拥有真实的数据和大量有经验的参赛者，以及良好的讨论共享氛围。基于树的 boosting/ensemble 方法在实战中取得良好效果，陈天奇提供的高质量的算法实现 xgboost 也使得构建基于该方法的解决方案更加容易高效，很多比赛的获胜方案都使用了 xgboost 。本文记录一个从零开始到最终用 xgboost

2017-05-30 16:44:18 2322

转载十分钟搞定pandas

本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包：一、创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list

2017-05-29 16:51:21 361

转载定向展示广告投放中的点击率预估模型简介

平台中有一些栏位是留给广告投放用的，对于平台来讲需要关注整体受益，用户需要关注用户体验，广告主需要进行精准的把广告投放给受众，提高转化率。广告投放给用用户展示，最重要的是排序，之前的排序公式是ctr*Bid，其中ctr是广告的历史点击率，Bid是广告主的出价。缺点是存在广告的冷启动和缺乏用户个性化诉求；对于新上架的广告，投放量太少，数据有偏，可以采用点击率平滑的方式，在广告投放前设置一个默认的

2017-05-27 21:29:57 2302

转载 LIBSVM与LIBLINEAR（二）

原文地址模型与优化LIBSVM和LIBLINEAR都提供了多种不同的模型供使用者选择，不同的模型有各自适用的场景。下面分别介绍LIBSVM和LIBLINEAR所提供的各种模型。LIBSVM下面是LIBSVM帮助内容提供的介绍，给出了LIBSVM支持的5种模型。其中模型0和1对应的都是SVM的分类模型，2对应的是one-class分类器，也就是只需要标注一个标签，模型

2017-05-27 21:25:18 394

转载广告点击率预估中的特征选择

一．互联网广告特征project博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统，能够看到，当中的logistic regression模型是比較简单并且有用的，其训练方法尽管有多种，但目标是一致的。训练结果对效果的影响是比較大。可是训练方法本身，对效果的影响却不是决定性的，由于训练的是每一个特征的权重，权重细微的区别不会引起ctr的巨大变化。在训练方法确定后，对ct

2017-05-27 21:19:38 7493 1

转载广告点击率预测 [离线部分]

广告点击率预测屈伟 / Koala++ 先声明一下，本文所提到的所有的点击率预测的技术不是我在的团队使用的，因为我们团队使用的技术是保密的，所以我也不知道他们是怎么做的。事实上我不知道广告点击率怎么预测的，认识我的人都知道，我就是最喜欢舞那开始三板斧的人，然后我就想扔了板斧投降了。也希望各位能指正我所写的内容中的错误之处，给我一下学习第四斧的机会。

2017-05-27 20:53:56 584 1

转载【scikit-learn】scikit-learn的线性回归模型

内容概要如何使用pandas读入数据如何使用seaborn进行数据的可视化scikit-learn的线性回归模型和使用方法线性回归模型的评估测度特征选择的方法作为有监督学习，分类问题是预测类别结果，而回归问题是预测一个连续的结果。1. 使用pandas来读取数据Pandas是一个用于数据探索、数据处理、

2017-05-24 21:02:17 523

转载 [Pandas error]sys:1: DtypeWarning: Columns (0,1) have mixed types. Specify dtype option on import or

要把这个 low_memory 关掉df = pd.read_csv('somefile.csv', low_memory=False)

2017-05-23 19:36:55 27334 1

转载 XGBoost-Python完全调参指南-参数解释篇

原文：在analytics vidhya上看到一篇Python>,写的很好。因此打算翻译一下这篇文章，也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见：http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/

2017-05-17 20:47:03 438

转载 kaggle数据挖掘竞赛初步--Titanic<数据变换>，kaggle--titanic

kaggle数据挖掘竞赛初步--Titanic，kaggle--titanic完整代码： https://github.com/cindycindyhi/kaggle-Titanic特征工程系列：Titanic系列之原始数据分析和数据处理Titanic系列之数据变换Titanic系列之派生属性&维归约缺失值填充之后，就要对其他格式有问题的属性进行

2017-05-17 13:47:21 928

转载 xgboost特征选择

Xgboost在各大数据挖掘比赛中是一个大杀器，往往可以取得比其他各种机器学习算法更好的效果。数据预处理，特征工程，调参对Xgboost的效果有着非常重要的影响。这里介绍一下运用xgboost的特征选择，运用xgboost的特征选择可以筛选出更加有效的特征代入Xgboost模型。这里采用的数据集来自于Kaggle | Allstate Claims Severity比赛，这里的

2017-05-17 13:45:03 4545

目前做二分类预测xgboost是效果最好的分类器，在kaggle等数据挖掘竞赛上的表现从未令人失望过。喜欢R的朋友可以直接在CRAN上下载xgboost包（install.pakages(‘xgboost’)）。而Python用户都深受安装新包的痛楚，由于xgboost作者删除了github上的windows目录，导致无法安装最新xgboost版本。今天我就教大家如何在python下安装较早版但也

2017-05-16 19:48:37 1310

转载把项目从Python2.x移植到Python3.x的经验总结

这篇文章主要介绍了把项目从Python2.x移植到Python3.x的经验总结,包括作者所使用的Jinja2框架中一些需要注意的地方,需要的朋友可以参考下经历移植jinja2到python3的痛苦之后，我把项目暂时放一放，因为我怕打破python3的兼容。我的做法是只用一个python2的代码库，然后在安装的时候用2to3工具翻译成python3。不幸的是哪怕一点点的改动都会打破

2017-04-08 17:24:17 3446

转载 TensorFlow入门学习(让机器/算法帮助我们作出选择)

catalogue0. 个人理解1. 基本使用2. MNIST(multiclass classification)入门3. 深入MNIST4. 卷积神经网络：CIFAR-10 数据集分类5. 单词的向量表示(Vector Representations of Words)6. 循环神经网络(RNN)、LSTM(Long-Short Term Memory, LSTM)7

2017-04-08 17:03:28 10348

转载 softmax回归

原文地址在上一篇文章中，讲述了广义线性模型。通过详细的讲解，针对某类指数分布族建立对应的广义线性模型。在本篇文章中，将继续来探讨广义线性模型的一个重要例子，它可以看成是Logistic回归的扩展，即softmax回归。我们知道Logistic回归只能进行二分类，因为它的随机变量的取值只能是0或者1，那么如果我们面对多分类问题怎么办？比如要将一封新收到的邮件

2017-04-08 16:49:34 492

转载 Python future 模块

好多开源的工程中Python代码中一直有这个__future__，特地了解一下。看了官网的描述，正好有一篇详细描述，搬砖。http://www.jianshu.com/p/14b156c361c4在Python2.7代码中经常能看到使用__future__模块。那么__future__到底是做什么的呢？简介从单词含义上猜应该是“未来”的模块。它有下面几个目的：

2017-04-08 15:44:39 586

转载 Latex公式及编号

Latex公式及编号1、latex公式加编号如果用eqnarray环境，只能将编号显示在上面或下面等式的后面，如：\begin{eqnarray}a+b = 1 \\c+d = 2\end{eqnarray} 编号显示在第二个等式的后面。使用下面的语句，使得编号显示在两个等式的中间：\begin{equation}\begin{array}

2017-04-07 09:31:14 17621

转载 Latex设置表格字体大小

Latex设置表格字体大小\begin{table}[h]\small %此处写字体大小控制命令\begin{tabular}\end{tabular}\end{table}Latex 设置字体大小命令由小到大依次为：\tiny\scriptsize\footnotesize\small\normals

2017-04-07 09:30:03 1873

转载 Python 优雅的操作字典

Python 中的字典是Python中一个键值映射的数据结构,下面介绍一下如何优雅的操作字典.1.1 创建字典Python有两种方法可以创建字典,第一种是使用花括号,另一种是使用内建函数dict>>> info = {}>>> info = dict()1.2 初始化字典Python可以在创建字典的时候初始化字典>>> info = {"n

2017-03-28 10:14:46 1001

转载 networkx使用笔记(二)之小试牛刀篇

图的类型 Graph类是无向图的基类，无向图能有自己的属性或参数，不包含重边，允许有回路，节点可以是任何hash的python对象，节点和边可以保存key/value属性对。该类的构造函数为Graph(data=None，**attr)，其中data可以是边列表，或任意一个Networkx的图对象，默认为none；attr是关键字参数，例如key=value对形式的属性。

2017-03-28 10:00:51 2150

转载 NetworkX Tutorial Release 1.10

本篇为Python networkx这个包的入门教程，翻译自官网的Tutorial（详情请戳：NetworkX documentation — NetworkX 1.10 documentation http://networkx.github.io/documentation/latest/index.html）。翻译风格较随意，如有错误请在下方留言。感谢！内容比较入门和基础，从创建图，节点，边

2017-03-27 13:16:39 1160 1

转载使用networkx-python绘制点边图

numpy https://pypi.python.org/packages/2.6/n/numpy/numpy-1.6.1.win32-py2.6.exe#md5=67e0c10cf55b713bd27cbba94dee9673pyparsing http://ncu.dl.sourceforge.net/project/pyparsing/pyparsing/pyparsing-2.0

2017-03-27 10:57:06 7170

转载 Latex使用小结

原文地址开始在论文写作中使用Latex，整理一下手册中常用的以及在网上搜集到的一些资料，以便以后查阅。 \textrm 公式里面出现文本格式\label{} 加标签\ref{} 引用\eqref{} 公式引用\mathbf{} 粗体（数学符号）\textbf{} 粗体（文本）\emph{} 斜体强调公式的编辑可以借助在

2017-03-21 20:10:10 3437

转载 pandas库中数据结构DataFrame的绘制函数

在使用Canopy进行数据分析时，我们会用到pandas库，通过它我们可以灵活的对数据进行处理、转换和绘图等操作。其中非常重要的数据结构就是DataFrame。本文主要整理一下对DataFrame对象进行plot操作的使用说明。函数名称：pandas.DataFrame.plot函数参数列表及缺省值：DataFrame.plot(data, x=None, y=None

2017-03-13 17:15:28 4744

转载 python matplotlib如何将图例放在图外

原文地址：http://blog.csdn.net/john_xyz/article/details/54754937关于matplotlib如何设置图例的位置？如何将图例放在图外？以及如何在一幅图有多个子图的情况下，删除重复的图例？我用一个简单的例子说明一下。import pandas as pdimport numpy as npimport matplotlib.pyplot

2017-03-13 17:14:05 8377 1

转载关于python中re模块split方法的使用

原址：http://blog.sciencenet.cn/blog-314114-775285.html关于python中re模块split方法的使用已有 3094 次阅读 2014-3-12 11:30 |系统分类:科研笔记今天在写一段小代码的时候需要用到re.split()方法，在使用的过程中发现了一个以前不知道的新用法，发现这个用法还是挺实用的，就把它记录下来：

2017-03-13 11:21:35 9080

转载 python 线性回归示例

说明：此文的第一部分参考了这里用python进行线性回归分析非常方便，有现成的库可以使用比如：numpy.linalog.lstsq例子、scipy.stats.linregress例子、pandas.ols例子等。不过本文使用sklearn库的linear_model.LinearRegression，支持任意维度，非常好用。一、二维直线的例子预备知识

2017-03-12 12:27:12 16766

转载 7.4多元线性回归实例1--python机器学习

原文地址参考彭亮老师的视频教程：转载请注明出处及彭亮老师原创视频教程： http://pan.baidu.com/s/1kVNe5EJ1. 例子一家快递公司送货：X1：运输里程 X2：运输次数 Y：总运输时间 Driving AssignmentX1=Miles Travel

2017-03-12 11:29:37 2265

转载 30分钟学会用scikit-learn的基本回归方法（线性、决策树、SVM、KNN）和集成方法（随机森林，Adaboost和GBRT）

原文地址注：本教程是本人尝试使用scikit-learn的一些经验，scikit-learn真的超级容易上手，简单实用。30分钟学会用调用基本的回归方法和集成方法应该是够了。本文主要参考了scikit-learn的官方网站前言：本教程主要使用了numpy的最最基本的功能，用于生成数据，matplotlib用于绘图，scikit-learn用于调用机器学习方法。如果你不熟悉他们（

2017-03-12 11:26:04 1096

空手道俱乐部数据集karate.pairs

多媒体 ps课程设计

空空如也