_PYX-CSDN博客

原创【笔记】决策树

根据子树划分属性的选择的方法不同，可以分为不同的决策树算法1. ID3使用信息增益来选择最优的划分属性，选择信息增益最大的属性进行划分。信息熵 = - p * log(p) a属性的信息增益 = 划分前信息熵 - a属性划分后的信息熵 2. C4.5使用信息增益率来选择最优划分属性，因为 ID3中信息增益是对属性取值数目多的属性有偏好，需要减

2017-08-06 16:49:21 448

原创单链表的中间节点-快慢指针

如何快速查找单链表的中间节点？快慢指针思路：快指针和慢指针从头开始遍历链表节点，快指针走两步，慢指针走一步，当快指针走到尾部时，慢指针刚好走到中间节点。ListNode* findMidNode(ListNode* head) { ListNode *slow, *fast; slow = head; fast = head;

2017-05-17 17:02:19 613

我们聊到了L0，L1和L2范数，这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限，以下都是我一些浅显的看法，如果理解存在错误，希望大家不吝指正。谢谢。三、核范数核范数||W||*是指矩阵奇异值的和，英文称呼叫Nuclea Norm。这个相对于上面火热的L1和L2来说，可能大家就会陌生点。那它是干嘛用的呢？霸气登场：约束Low-Rank（低秩）。OK，OK，那我们得知道Low-Rank是啥?用来干啥的

2016-10-16 13:10:14 557

转载机器学习中的范数规则化之（一）L0、L1与L2范数

今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大，为了不吓到大家，我将这个五个部分分成两篇博文。知识有限，以下都是我一些浅显的看法

2016-10-16 13:07:31 532

转载使用sklearn优雅地进行数据挖掘

转载：使用sklearn优雅地进行数据挖掘1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤　　数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作，在《使用sklearn做单机特征工程》中，我们最后留下了一些疑问：特征处理类都有三个方法fit、transform和fit_transform，fit方法居然和模型训练

2016-10-16 12:52:47 669

转载 kaggle ensembling guide（Kaggle中常用融合技术）

kaggle ensembling guide（Kaggle中常用融合技术）模型融合技术可以提高一系列机器学习任务的准确率。在这篇文章中我将会分享大家一些在kaggle比赛中常用的融合方法。第一部分我们介绍利用提交的文件创建融合模型。第二部分我们通过堆栈泛化创建融合模型。我回答了为什么融合能够减少泛化误差。最后我列举了不同的融合方法以及他们的代码供你们去尝试。

2016-08-11 11:27:02 3158

转载 Tensorflow基本用法

基本用法使用图(graph)表示计算任务，描述了计算过程会话(Session)用于执行图，即执行计算任务，使用tensor表示数据变量(variable) 维护状态通过 feed 和 fetch 可以为任何的操作(arbitrary operation) 赋值或者从中获取数据

2016-08-02 19:25:22 717

原创 Attention and Memory in Deep Learning and NLP(深度学习和NLP中的注意和记忆机制) 阅读笔记

什么是Attention Mechanisms(注意机制) 神经网络中的注意机制类似人类的视觉注意机制，人类视觉本质上看图片会聚焦在“高清晰度“的区域，同时也会感知周围“低清晰度”的区域，然后不断调整焦点目前，注意机制和RNN结合大放异彩

2016-07-26 20:19:45 2985

转载 Attention and Memory in Deep Learning and NLP(深度学习和NLP中的注意和记忆机制)

A recent trend in Deep Learning are Attention Mechanisms. In an interview, Ilya Sutskever, now the research director of OpenAI, mentioned that Attention Mechanisms are one of the most exciting advan

2016-07-21 19:03:19 1992

原创 Understanding Convolutional Neural Networks for NLP（理解NLP中的卷积神经网络）阅读笔记

什么是卷积？每一次卷积相当于把低级的特征转换成更高级更抽象的特征图片卷积的时候需要注意位置不变性和组合性，在NLP中则不需要，因为在图片中相近的像素语义也相近，但是在NLP中附近的词语语义却不同。什么是卷积？每一

2016-07-19 15:39:03 1680

原创 Implementing a CNN for Text Classification in TensorFlow（用tensorflow实现CNN文本分类）阅读笔记

基于tensorflow实现卷积神经网络文本分类数据和预处理数据集：电影评论数据——Movie Review data from Rotten Tomatoes,包含5331个积极的评论和5331个消极评论，同时包含一个20k的词表注意：数据集过小容易过拟合，可以进行10交叉验证

2016-07-19 15:06:32 9945 7

转载使用sklearn做单机特征工程

有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：

2016-07-19 14:57:46 526

转载十分钟搞定pandas

转载: http://pandas.pydata.org/pandas-docs/stable/10min.html翻译: [email protected]本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。

2016-06-06 19:15:26 500

原创 SqlServer 按日期查表，没有数据的日期显示为0

SqlServer 按日期查表，没有数据的日期显示为0有数据表A，包含以下数据日期数量-----------------------------2015-07-17 12015-07-22 12015-07-23 22015-07-25 1需要查询效果如下：日期数量------------------------------2015-07-17 12015-07-18 02015-07-19 0

2016-05-22 13:21:14 8585

aPYXa的博客