伊小白-CSDN博客

转载使用sklearn进行机器学习—实践

使用sklearn进行机器学习—实践Random Forest和Gradient Tree Boosting参数详解　　在sklearn.ensemble库中，我们可以找到Random Forest分类和回归的实现：RandomForestClassifier和RandomForestRegression，Gradient Tree Boosting分类和回归的实现：GradientBoosting

2017-05-10 09:12:29 2996

转载使用sklearn进行机器学习-理论

使用sklearn进行机器学习—理论本文主要是这两篇文章的整理。更详细的内容可以参看。前言　　很多人在竞赛（Kaggle，天池等）或工程实践中使用了集成学习（例如，RF、GTB等），确实也取得了不错的效果，在保证准确度的同时也提升了模型防止过拟合的能力。但是，我们真的用对了集成学习吗？　　sklearn提供了sklearn.ensemble库，支持众多集成学习算法和模型。恐怕大多数人使用这些工具时，

2017-05-10 09:11:38 1681

原创《统计学习方法》的一些点

统计学习方法的一些点一、统计学习方法概论统计学习方法的三要素：模型、策略、算法模型模型就是所要学习的条件概率分布或决策函数。其中决策函数标识的模型为非概率模型，由条件概率表示的模型称为概率模型。策略损失函数L(Y,f(x))L(Y, f(x))：0-1损失函数平方损失函数绝对损失函数对数损失函数风险函数或者期望损失：Rexp(f)=Ep[L(Y,f(x))]=∫x∗yL(y,f(x))P(x,y)

2017-05-10 09:06:51 578

原创 mac os升级tensorflow

之前的tensorflow是0.11版本，现在想要升级到1.1版本，使用以下命令进行升级：sudo pip install –upgrade tensorflow结果出现以下问题： OSError: [Errno 1] Operation not permitted: ‘/tmp/pip-bDGTbQ-uninstall/System/Library/Frameworks/Python.fram

2017-04-24 15:46:34 1938

原创悟空（wukong）搜索引擎源代码阅读(待续)

悟空（wukong）搜索引擎源代码阅读最近为了了解搜索引擎的一些知识，阅读了wukong搜索的一些源码，在这里记录一下。项目地址在这里整个的处理流程如下：在项目中主要有一下几个目录：

2017-04-21 16:00:33 7121

原创深度学习之理解神经网络的四个公式

在这篇文章上一里面，我们探讨了：可以使用偏导值利用梯度下降来求权重w和b，但是我们并没有提，如何求代价函数的偏导，或者说如何对代价函数使用梯度下降。这时候就需要我们的backpropagation出马了。backpropagaton的历史我就不详谈了（主要是懒），总之呢，现在他已经成了神经网络计算的核心算法了。接下来我们就详细的讲这个算法。首先我们从基础开始说起，首先定义一个神经网络在这里，首先需要

2017-04-21 15:48:18 15196

原创 sklearn之模型选择与评估

sklearn之模型选择与评估在机器学习中，在我们选择了某种模型，使用数据进行训练之后，一个避免不了的问题就是：如何知道这个模型的好坏？两个模型我应该选择哪一个？以及几个参数哪个是更好的选择？这就涉及到一个模型选择与评估的问题了。sklearn包的model_selection模块主要辅助要解决的，就是这个问题。下面我们会简单讲下model_selection中提到的一些模型选择与评估方法，作为一

2017-04-21 15:29:37 6954

原创深度学习入门之从感知机开始

深度学习的一些个人学习（1）

2016-12-08 00:20:13 2090

原创在Mac os下安装xgboost

在Mac os下安装xgboostgit clone --recursive https://github.com/dmlc/xgboost

2016-11-14 22:58:06 12266

原创 KAGGLE ENSEMBLING GUIDE

KAGGLE ENSEMBLING GUIDE标签（空格分隔）：本文主要引自KAGGLE ENSEMBLING GUIDE，有兴趣的可以直接到原文去看，本文是对其原文做的一些总结。Ensemble方法是机器学习中一种很重要的方法，本文主要讲了两部分：一部分是直接对submission file进行ensemble,另一部分是使用stack/blend方法。通过submissin file进行

2016-09-09 01:11:10 918

原创 Go语言程序设计：集合类型

Go语言程序设计：集合类型Go 集合本章主要介绍了以下类型：值，指针以及引用的类型。除此之外，还包括了Go语言的一些内置类型：数组、切片和映射。

2016-09-07 00:09:37 1594

转载并行和并发的区别

并行和并发的区别所有的并发处理都有排队等候，唤醒，执行至少三个这样的步骤.所以并发肯定是宏观概念，在微观上他们都是序列被处理的，只不过资源不会在某一个上被阻塞(一般是通过时间片轮转)，所以在宏观上看多个几乎同时到达的请求同时在被处理。如果是同一时刻到达的请求也会根据优先级的不同，而先后进入队列排队等候执行。

2016-07-20 14:01:42 496

原创 go语言学习

自己名义上是在搜索部门，但主要做的是文本相关的工作。所以想自己如果说自己不会搜索，也挺尴尬的。于是找了一个叫wukong搜索的搜索引擎，打算学习一下。wukong搜索是用go语言写成的，所以正好学习下这门google的语言，然后顺便学习下wukong搜索，也算是一举两得。本系列会主要写一些go语言学习相关的知识点，主要是一些跟其他语言（例如c，python）不同的点，会单独列出来。主要内容会基于

2016-07-07 21:31:08 2720

转载 TextRank算法

TextRank算法基于PageRank，用于为文本生成关键字和摘要。

2016-06-25 00:29:22 16192

转载 BM25原理讲解

BM25算法解析BM25原理BM25算法，通常用来作搜索相关性平分。一句话概况其主要思想：对Query进行语素解析，生成语素qi（对于汉语来说，通常是指分词后的词）；然后，对于每个搜索结果D，计算每个语素qi与D的相关性得分，最后，将qi相对于D的相关性得分进行加权求和，从而得到Query与D的相关性得分。

2016-06-24 23:33:26 4104

原创 viterbi算法

维特比算法（Viterbi Algorithm）用于寻找最可能的隐藏状态序列(Finding most probable sequence of hidden states) 。对于一个特殊的隐马尔科夫模型(HMM)及一个相应的观察序列，我们常常希望能找到生成此序列最可能的隐藏状态序列。

2016-06-02 17:43:30 8943

原创 python中schedule模块的使用

schedulepython中schedule模块的使用由于需要用到一个使用python进行job管理的模块，找到了schedule模块，简单好用，在这里记录一下。

2016-05-19 11:21:27 52575 1

原创 HMM（隐马尔科夫链）介绍

HMM 隐马尔科夫链介绍标签（空格分隔）： HMM 马尔科夫最近时间需要了解HMM算法，在此做了一些了解。本文主要基于我爱自然语言处理总结而成。介绍我们通常希望寻找一个事物的规律，比如计算机的指令序列，句子中的词语序列等等。举个例子来说，有人试图通过一片海藻推断天气——民间传说告诉我们‘湿透的’海藻意味着潮湿阴雨，而‘干燥的’海藻则意味着阳光灿烂。如果它处于一个中间状态（‘有湿气’），我们就无法

2016-03-30 17:35:57 4724

原创 Pandas数据的选取

使用python的工具包pandas，可以方便的处理数据。但是发现一个问题：有时候总是不知道怎么选取数据。因此在这里记录一下。由于在实际使用中，主要用到的就是DataFrame的结构，因此，这里主要说DataFrame数据结构中，数据的选取方法。假设我们已经有了DataFrame数据，呈现如下结构： index pop state year 0 1.5 Ohio 2

2016-01-18 23:54:21 13324

原创 word2vec理解

最近需要用word2vec来对微博的一些数据进行处理，因此学习了word2vec算法。对word2vec算法说的最详细的，可以参考该文章： http://pan.baidu.com/s/1gdX8yxd对于google发出的c语言版本的源码，做了一些注释，可以略做参考： https://github.com/kamendula/word2vec目前的word2vec的算法是全量的方式，但是由

2016-01-15 11:49:48 1507

原创数据挖掘学习知识记录

以后在这里分享数据挖掘自己学习的相关知识在这里，既是作为自己学习的记录，方便以后自己的回顾，也希望有机会跟各位大神有交流的机会。综合来看，目前需要学习的有这么几点：1、概率；2、统计学；3、线性代数4、Andraw NG的机器学习视频；5、Kaggle的使用方法。以上五点作为目前重点学习与记录的几个方面。与各位共勉。

2015-09-21 09:33:20 637

原创 Python字符编码理解

长久以来，一直对编码有所不理解，现在梳理一下。首先要明白几个概念：字符，字符集，字符编码什么是字符呢？很简单，比如一个汉字就是一个字符，一个“你”就是一个字符；而同样的，对于英语来说，“a”是一个字符；“3”也是一个字符。不同的语言，不同的表示方式，都是一个字符。那么是什么是字符集呢？字符集就是，很多个字符的集合。那么不同的字符集，就代表着不同的字符的集合。比如说，：ASCII字符集

2015-06-18 14:22:05 547

原创似然函数

在机器学习的算法中，我们经常会见到“似然函数”这个概念。那么，什么是“似然函数”呢？如果直接看似然的话，比较让人迷惑。但是如果看英文名“Likelihood function ”，就可以大体明白，是表明“可能性”的函数。我们知道，通常情况下，我们是利用“概率”这个词来表名可能性的。比如：我们知道抛一枚硬币，其正面朝上的概率为p=0.5。那么，在我们抛3次时，其全部朝上的概率是：p=0.5*0

2015-06-03 17:53:35 994

原创小白对斯坦福大学机器学习中的几个点的理解（一）

小白对斯坦福大学机器学习中的几个点的理解（一） 1、块梯度下降（批梯度下降）以及随机梯度下降对于线性回归（及logistic回归），以及感知机，SVM等方法来说，本质就是要找出一个超平面，不同的方式是用不同的算法，不同的策略去寻找这个超平面，也就是说，他们的模型，应该是相同的。既然有相同的模型：超平面，那么对于损失函数，是类似的：用所有的点到该超平面的距离进行衡量。当然，点的选取也有所不同

2015-06-03 12:48:53 982

原创 jquery选择器

本文主要是根据斯坦福大学的机器学习课程，以及《机器学习实战》这本书整理而成。自己也是刚学，算是一点对于机器学习的浅薄的理解，敬请指正。本文主要讲的是机器学习中的“回归分析”问题这一类。所谓的回归分析，回归分析（regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。通常情况下，我们可以将回归分为两部分：一种是基于连续性的的数据作出预测，

2014-12-14 17:03:49 496

原创 Numpy常用方法介绍

我们知道，在python中，

2014-11-24 22:32:59 673

原创 scrapy安装方法（windows以及linux）

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

2014-04-06 17:19:44 1360

原创图的遍历

图的遍历主要分为两种形式：广度优先遍历（BFS）和深度优先遍历（DFS）。对于图的遍历来说，不管是采用的邻接矩阵的方式，还是采用的邻接表的形式，其实现都是类似的，甚至可以说是一样的。广度遍历广度遍历利用了队列的特点，结点顺序的放入队列中，然后再出来。对于采用邻接表还是邻接矩阵，两者实际上是非常类似的：void BFSTraverse(MGraph G,Status(*Visi

2013-03-30 15:40:36 1037

原创图的邻接表的创建

图的元素有这么几点：顶点数目，顶点信息，弧的数目，弧的信息，以及图的信息。在矩阵表示的时候，弧是较为容易确定的------两个顶点之间，也就是一个二维指针指向的是0还是不是0,或者是无穷大还是有值，通过这些来判断弧的存在。但是在邻接表中，就要用链表的特征：采用指针将图表示出来。在邻接表中，要对途中的每一个顶点建立一个单链表。在严版的《数据结构》中，对于每个结点是这么定义的：里面包含三部分的

2013-03-29 16:13:13 966

原创图邻接矩阵的创建

首先，一个图包含的元素主要有：顶点数目，顶点值，弧的数目，弧的值（一般由两个顶点来确定），当然你也可以加入这个图的信息，比如，是有向图，还是无向图。一般的，可以如下定义： typedef int VRType;typedef char InfoType;typedef char VertexType[MAX_NAME];#define INFINITY INT_MAX /* 用

2013-03-28 22:20:20 1339

转载学习ip地址以及子网掩码

一地址的划分我们知道，ip地址分为了5类。那么这5类是怎么划分的呢？首先，我们已经打算好了，打算用32位，也就是4个字节来表示所有网络中的ip。但是，发送来了一个ip，你怎么知道它是哪一个类呢？由于网络字节序就是大端字节序，大端是先发送过来的。那么，我们现在有了一个ip在手。我们一看，呀，第一个比特是0！那么，哈哈，这是个A类！然后我们给A类一个字节作为网络号（其实是7个bi

2013-03-25 23:00:00 1542

转载顺时针打印矩阵

转载自http://zhedahht.blog.163.com/分析：第一次看到这个题目的时候，觉得这个题目很简单，完全不需要用到数据结构或者算法的知识，因此没有兴趣做这道题。后来听到包括Autodesk、EMC在内的多家公司在面试或者笔试里采用过这道题，于是想这么多家公司用它来检验一个程序员的编程功底总是有原因的，于是决定自己写一遍试一下。真正写一遍才发现，要完整写出这道题的代码，还真不

2013-03-25 14:59:44 476

转载 C缺陷与陷阱笔记

栏杆错误的两个通用原则：首先考虑最简单情况下的特例，然后将得到的结果往后推仔细计算边界，绝不掉以轻心用第一个入界点和第一个出界点来表示一个取值范围1 取值范围的大小就是上界与下界之差2 如果取值范围为空，那么上界等于下界3 如果取值范围为空，上界也永远不可能小于下界求值的优先级整数溢出在无符号数中，没有溢出一说。所有的无符号运算都

2012-11-13 23:41:09 536

原创一个用来处理手机通讯录乱码的小小小小python程序

从原先的手机导出了原先的通讯录，然后导入新的手机的时候，发现总是出现的是乱码。发现里面关于文件名的部分有问题，而且默认的编码方式有问题：原先的是utf-8，改为ANSI之后，把里面关于显示通讯录名字的部分改为文件名即可（文件名即通讯录里面同学的名字）。即把红色部分改掉即可。python代码如下：# encoding: utf-8?#liuyang#20121109

2012-11-09 22:19:50 513

numpy-1.8.1-win32-superpack-python2.7.exe

目前网络上提供的主要是numpy的源代码安装方式，这个是windows下的安装方式，安装方便。

2014-11-12

SublimeText3破解版.zip

SublimeText3破解版 Sublime Text就不用多做介绍了，官方最新发布了Sublime Text 3 Beta，价格却也飙到了70刀。 Sublime Text 是一个代码编辑器（Sublime Text 2是收费软件，但目前可以无限期试用），也是HTML和散文先进的文本编辑器。Sublime Text是由程序员Jon Skinner于2008年1月份所开发出来，它最初被设计为一个具有丰富扩展功能的Vim。 Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。[2]Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。用了Sublime Text 3 就不太想用Notepad++了….囧更新日志大大的提高了启动速度

2014-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人