自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lionzl的专栏

轻财足以聚人,律己足以服人,量宽足以得人,身先足以帅人

  • 博客(52)
  • 资源 (12)
  • 收藏
  • 关注

转载 Wrapfs : a stackable file system(一种堆栈式文件系统)

最近学习研究wrapfs文件系统,但baidu了一下,相关的中文资料比较少。因此决定将wrapfs官网的简要描术文章《Documentation_filesystems_wrapfs.txt》翻译成中文。文翻来自于:http://git.fsl.cs.sunysb.edu/?p=wrapfs-latest.git;a=blob;f=Documentation/filesystems

2015-11-30 19:48:03 1531

转载 概率论复习 – 基础概率分布

概率论复习 – 基础概率分布Posted on 2012 年 3 月 21 日 by 恒发现对概率论的基本概念理解不是很深入,导致看后面的东西时常有些莫名其妙的疑惑,回头来看看概率论与统计1. 累积分布函数(CDF – Cumulative distribution function 或直接就叫 distribution function)       

2015-11-30 16:56:37 1172

转载 RankNet学习思路

整理了一下学习ranknet需要知道的几点:1、ranknet是从概率角度,利用pairwise解决排序问题;2、最终我们学习的是一个为搜索结果打分的函数(Scoring Function),这个函数的作用是用来给搜索结果排序的,函数中带有未知参数,RankNet会帮你把参数训练出来,这个Scoring Function在这里并不是RankNet中特定的,因此只要提供的Scorin

2015-11-30 15:44:09 440

转载 GBDT(MART) 迭代决策树入门教程 | 简介

在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:              GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g

2015-11-30 15:42:08 366

转载 正态分布的前世今生(上)

作 者: rickjin(靳志辉“Ÿ)校 对: 汤涛,香港浸会大学数学讲座教授神说,要有正态分布,就有了正态分布。神看正态分布是好的,就让随机误差就服从了正态分布。创世纪-数理统计一、正态分布,熟悉的陌生人学过基础统计学的同学大都对正态分布非常熟悉。这个钟型的分布曲线不但形状优雅,其密度函数写成数学表达式

2015-11-30 14:58:18 959

转载 T检验和F检验的由来

1,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是

2015-11-30 14:10:10 2071

转载 机器学习相关学习资料

机器学习相关学习资料 2014-08-22 14:09:48分类: 大数据http://cs224d.stanford.edu/syllabus.html,standford的NLP深度学习课程2015http://lamda.nju.edu.cn/(X(1)S(5qvfc4e0xlqbxo45m0ojvo55))/Data.ashx(这个是好东

2015-11-27 08:55:11 532

转载 卡方检验文本特征选择

卡方检验文本特征选择 2014-11-17 20:16:15分类: 大数据关于卡方检验,下面这篇blog介绍的比较详细,仔细思索之后,对一些点做如下说明,个人理解:1. 关于假设“词t与类别c无关”。这个假设应该变更为“词t不是对分类有区分度的特征”,(c是一个类别,除了c之外的所有数据组成另一个类别,类似逻辑回归多分类的方法)。一个词的卡方检验值高,并不能

2015-11-27 08:53:18 1348

转载 各种统计假设检验的个人认识之一---卡方检验(Chi-square test)

各种统计假设检验的个人认识之一---卡方检验(Chi-square test) (2010-12-20 10:02:35)转载▼标签: 教育分类: 学点东西先看看 维基的解释A chi-square test (also chi squared test or χ2 test) is anystatistica

2015-11-26 23:56:05 2097

转载 如何为分类问题选择合适的机器学习算法

若要达到一定的准确率,需要尝试各种各样的分类器,并通过交叉验证选择最好的一个。但是,如果你只是为你的问题寻找一个“足够好”的算法或者一个起点,以下准则有利于选择合适的分类器:你的训练集有多大?如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(

2015-11-26 20:50:11 649

转载 学习排序 Learning to Rank 小结

学习排序 Learning to Rank 小结标签: 学习排序Learning to Rank机器学习2013-05-26 12:14 10921人阅读 评论(1) 收藏 举报 分类:机器学习(9) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]学习排序(Learning to Ra

2015-11-26 19:55:35 627

转载 最大似然估计学习总结------MadTurtle 1. 作用 在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数clip_image002作为真实cl

最大似然估计学习总结------MadTurtle1. 作用在已知试验结果(即是样本)的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数作为真实的参数估计。2. 离散型设为离散型随机变量,为多维参数向量,如果随机变量相互独立且概率计算式为P{,则可得概率函数为P{}=,在固定时,上式表示的概率;当已知的时候,它又变成的函数,可以把它记为,称此函数为似然

2015-11-26 19:41:13 1018

转载 先验概率与后验概率及贝叶斯公式

先验概率与后验概率及贝叶斯公式标签: cfunction2010-09-02 21:26 6770人阅读 评论(1) 收藏 举报 分类:计算机视觉/图像处理(28) 先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.一、先验概

2015-11-26 19:32:56 817

转载 GBDT(MART) 迭代决策树入门教程 | 简介

GBDT(MART) 迭代决策树入门教程 | 简介2012-11-29 19:12 27403人阅读 评论(4) 收藏 举报 分类:算法学习(15) 在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下:              GBDT(Gradient Boosting Decision Tree) 又叫 MAR

2015-11-26 19:03:04 396

转载 贝叶斯网络小结

贝叶斯网络小结标签: 算法贝叶斯网络机器学习2014-12-21 20:32 1581人阅读 评论(0) 收藏 举报 分类:算法与数学(14) 版权声明:本文为博主原创文章,未经博主允许不得转载。周末去给同事分享贝叶斯网络,每次分享过后的东西都没有记录感觉挺可惜的,故把准备分享过程中的一些笔记、资料、关键点等写成文章记

2015-11-26 18:55:28 2104

转载 统计自然语言处理——n元语法(马尔可夫模型)小结

统计自然语言处理——n元语法(马尔可夫模型)小结标签: 自然语言处理signal算法floatsystemqt2012-02-29 22:22 3156人阅读 评论(0) 收藏 举报 分类:自然语言处理版权声明:本文为博主原创文章,未经博主允许不得转载。终于把书看到传说中重要的第六章了。。。看完第六章开始后悔之前花那么

2015-11-26 18:12:53 471

转载 NLP自然语言处理系列——LDA主题词模型探析

NLP自然语言处理系列——LDA主题词模型探析时间 2015-06-17 22:39:57  十一城elevencitys.com原文  http://elevencitys.com/2015/06/nlp自然语言处理系列-lda主题词模型探析/主题 LDA(一)LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF

2015-11-26 17:38:04 2779

转载 潜在语义分析

潜在语义分析博客分类: 机器学习 1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(v

2015-11-26 17:34:46 1441

转载 LSA潜在语义分析

LSA潜在语义分析标签: 算法自然语言处理机器学习wiki2014-11-19 22:20 2781人阅读 评论(0) 收藏 举报 分类:NLP目录(?)[+]在Wiki上看到的LSA的详细介绍,感觉挺好的,遂翻译过来,有翻译不对之处还望指教。原文地址:http://en.wikipedia.org

2015-11-26 17:30:38 660

转载 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用版权声明:    本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言:    上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去

2015-11-26 17:18:19 477

转载 统计语言模型学习笔记

统计语言模型学习笔记 (2011-05-13 18:10:17)转载▼标签: 统计 n-gram n-pos 语言模型 it分类: 自然语言  语言模型(Language Model)是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实践中,语言模型

2015-11-26 16:49:14 512

转载 第一章 语料库语言学基本知识

第一章 语料库语言学基本知识 (2012-10-21 22:53:07)转载▼标签: 杂谈分类: 我的阅读《语料库应用教程》梁茂成 李文中 许家金著 外语教学与研究出版社 2011年1月第一部分 语料库语言学基本知识与语料库基本操作第一章 语料库语言学基本知识一 基本概念1. 文本:

2015-11-26 16:41:26 8296

转载 序列标注模型

序列标注模型 (2015-01-30 09:29:34)转载▼  背景知识序列标注模型被广泛应用于文本处理相关领域,例如分词、词性标注、命名实体识别等方面。现有的序列标注模型主要有HMM,MEMM 以及 CRF,通过对这几种自然语言处理中常用的序列标注模型进行对比,分析其各自的优缺点。在介绍三种序列标注模型

2015-11-26 16:08:34 2124

转载 linux系统的文件透明加解密的驱动程序(一)

linux系统的文件透明加解密的驱动程序(一) (2013-09-10 23:30:44)转载▼标签: 文件透明加解密 动态加载 驱动程序 劫持系统调用 汇编分类: 个人日记这是一个在系统调用层劫持系统调用,实现linux系统的文件透明加解密的驱动程序(一)。最后编写Ma

2015-11-25 14:24:07 1125

转载 数学之美番外篇:平凡而又神奇的贝叶斯方法

数学之美番外篇:平凡而又神奇的贝叶斯方法By 刘未鹏(pongba)C++的罗浮宫(http://blog.csdn.net/pongba)TopLanguage(http://groups.google.com/group/pongba)概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛

2015-11-17 18:50:44 395

转载 算法杂货铺——分类算法之决策树(Decision tree)

3.1、摘要      在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。

2015-11-17 16:05:02 420

转载 Apache Eagle:分布式实时 Hadoop 数据安全方案

Apache Eagle:分布式实时 Hadoop 数据安全方案oschina 发布于: 2015年10月29日 (5评)分享到: 收藏+8712月12日北京OSC源创会 —— 开源技术的年终盛典 »  摘要:日前,eBay公司隆重宣布正式向开源业界推出实时分布式Hadoop数据安全方案 - Apach

2015-11-17 13:24:52 723

转载 防火墙技术最高境界—双机热备

随着互联网技术的不断发展,越来越多的业务被迁移到互联网上,移动办公、网上购物、即时通讯、互联网金融、互联网教育等业务蓬勃发展,由于互联网承载的业务越来越多,越来越重要,所以对网络的可靠性提出了更高的要求,如何保证网络的不间断传输成为急需解决的一个问题。防火墙作为网络基础架构的重要产品,其可靠性要求不言而喻。如下面左图所示,防火墙作为内外网的接入点,当设备出现故障便会导致内外网之间的业务的全

2015-11-17 13:23:31 3330

转载 如何将AS400的文件转换为DEL格式的文件

如何将AS400的文件转换为DEL格式的文件 2006-11-09 20:47:42分类:DB2 UDB可以将数据通过EXPORT工具导出为有分隔符的ASCII文件(Delimited ASCII files),例如:EXPORT TO names.del OF DEL SELECT * FROM NAMES,它将表NAMES导入到names.del

2015-11-17 12:47:28 791

转载 Export/Import/load 实用程序文件格式

Export/Import/load 实用程序文件格式2012-09-13 09:00:58标签:ixf del wsf一  Export/Import/load 实用程序文件格式 前几天面试ibm,被问到很小的一个细节,export 导出的文件格式del 和ixf 有什么区别?于是查找了相关的资料:以下描述了 DB2® export 实用程序、

2015-11-17 12:45:21 636

转载 DB2 导入导出格式分析

DB2 导入导出格式分析在DB2数据库维护中,有项工作可能经常需要处理。如在数据库投入生产使用之前,往往需要在数据库中建立大量的信息。这步工作很多都是通过数据导入来完成的,即将数据直接从某个文件中导入到数据库系统中。不过在数据导入之前,DB2数据库系统往往会对外部文件的格式进行仔细的检查。  如果外部文件的格式不符合数据库的强制性要求,数据库就会拒绝导入数据。笔者这次要给大家介绍的

2015-11-17 12:42:48 2564

转载 用机器学习识别随机生成的C&C域名

本文用识别由域名生成算法Domain Generation Algorithm: DGA生成的C&C域名作为例子,目的是给白帽安全专家们介绍一下机器学习在安全领域的应用,演示一下机器学习模型的一般流程。机器的力量可以用来辅助白帽专家们更有效率的工作。本文用到的演示数据集和python演示代码请参见 https://github.com/phunterlau/dga_classifier 关于编

2015-11-16 18:12:05 1068

转载 分布式服务的Trace——Google Dapper & Twitter Zipkin

分布式服务的Trace——Google Dapper & Twitter Zipkin时间 2014-03-23 08:32:53  Leoncom原文  http://leoncom.org/?p=650847主题 分布式系统 Nosql对于分布式在线服务,一个请求需要经过系统中多个模块,上百台机器的协作完成单次请求,典型场景就是Search Engine的一

2015-11-10 13:54:08 543

转载 多图技术贴:深入浅出解析大数据平台架构

目录:什么是大数据Hadoop介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。大数据的4V特征-来源公司的“大数据”随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:1、业务系统

2015-11-10 13:50:16 594

转载 Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)

Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)JeOam 5.8k 2013年12月15日 发布推荐 0 推荐收藏 5 收藏,6.2k 浏览编者注:我们发现了有趣的一系列文章《30天学习30种新技术》,正在翻译中,一天一篇更新,年终礼包。下面是第 1

2015-11-10 13:49:03 1103

转载 中文词性标注以及命名实体识别

中文词性标注以及命名实体识别 (2011-02-22 16:49:24)转载▼标签: it分类: NLP目前在中文词性标注(Part-of-speech Tagging)方面做的比较好的有:哈工大的LTP:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm中科院的ICT

2015-11-10 13:46:49 1487

转载 [转]哈工大开源项目LTP系统的首次运行

forever1dreamsxx--NLP[转]哈工大开源项目LTP系统的首次运行2012-7-26阅读1225 评论2原文地址:http://www.mrluoyi.com/blog/2011/07/tutorial-of-ltp/ (环境:Windows, VS2008)chubby_roro@qq.com0.    说明  

2015-11-10 13:45:33 734

转载 Pluto中文文本分析能力的数据挖掘平台

Pluto中文文本分析能力的数据挖掘平台2015-02-03 21:17:00赛迪网赛迪网分享参与产品概述Pluto是由西安交大美林数据挖掘研究中心开发的数据挖掘平台,平台设计严格遵循国际数据挖掘标准CRISP-DM(跨行业数据挖掘过程标准)。Pluto强大的数据挖掘功能将复杂的统计方法和机器学习技术应用到业务数据当中,帮助客户揭示隐藏在业务系统和企业资

2015-11-10 13:43:20 1123 1

转载 网上信息抽取技术纵览

网上信息抽取技术纵览 (Information Extraction from World Wide Web-A Survey)Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3)第一章         导论   信息抽取(Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成 表格一样的组织形式。输入

2015-11-10 13:16:58 801

转载 大数据架构和模式(四)了解用于大数据解决方案的原子模式和复合模式 大数据架构和模式(五)对大数据问题应用解决方案模式并选择实现它的产品

大数据架构和模式(四)了解用于大数据解决方案的原子模式和复合模式作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:21  阅读: 2827 次  推荐: 1   原文链接   [收藏]  摘要:本文中介绍的模式有助于定义大数据解决方案的参数。本文将介绍最常见的和经常发生的大数据问题以及它们的解决方案。原子模式描述了使用、处理

2015-11-10 13:13:56 1048

面向模式的软件体系结构(中英文全集共十本).part3.

面向模式的软件体系结构(中英文全集共十本).part3.

2012-10-08

面向模式的软件体系结构(中英文全集共十本).part4

面向模式的软件体系结构(中英文全集共十本).part4

2012-10-07

面向模式的软件体系结构(中英文全集共十本).part2

面向模式的软件体系结构(中英文全集共十本).part2

2012-10-07

面向模式的软件体系结构(中英文全集共十本).part1

面向模式的软件体系结构(中英文全集共十本).part1

2012-10-07

支持visio正向工程 从ER图生成数据库的插件

支持visio正向工程,从ER图生成数据库的插件

2011-03-18

Windows7 64 下 ollydbg 调试插件

本插件解决了win7/vista 64 位环境下 Ollydbg 无法调试的问题。

2011-03-08

smbrelay3.exe +源码 虚拟机内此时,可能报病毒

新版的smbrelay,含源码,仅供学习,可能会报病毒。可以在虚拟机里测试

2010-08-09

nunit C#写的一个库,上一个资源需要这个

nunit C#写的一个库,上一个资源需要这个

2010-07-07

纯c#读取excel

纯c#读写excel文件,可用于 asp.net 网页或者.net应用程序

2010-07-07

vistaBootPro

用于在已经安装vista得pc上安装windows XP系统 设置启动列表

2008-12-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除