- 博客(31)
- 资源 (11)
- 收藏
- 关注
转载 Bias vs. variance
from: http://blog.sina.com.cn/s/blog_49899f3b0100lewa.htmlBias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习算法的期望误差分解为三个非负项的和,即本真噪音、bias和 variance。本真噪音是任何学习算法在该学习目标上的期望误差的下界;( 任何方法都克服不了
2011-10-30 20:01:20 1065
原创 dbvisit
1. user guidehttp://www.dbvisit.com/docs/Dbvisit_UserGuide5.1.htm2. 中文资料:使用Dbvisit同步数据库操作指引http://wenku.baidu.com/view/f51e380e6c85ec3a87c2c536.html
2011-10-25 21:16:54 820
原创 机器学习 3
Generative Learning Algorithmrefer to http://justin314.blog.163.com/blog/static/18717838720101121115542497/今天看了一集斯坦福的机器学习课程,讲的是Generative Learning Algorithm。这是与Discriminative Learning Algorithm相对的
2011-10-25 21:08:46 544
原创 机器学习 2
1. newton's method牛顿逼近法2. Generalized linear modelhttp://en.wikipedia.org/wiki/Generalized_linear_model3.sufficient statistichttp://en.wikipedia.org/wiki/Sufficient_statistic4.
2011-10-24 22:15:06 471
原创 机器学习 1
1. underfitting and over-fitting2. locally weighted regression LWR - 局部加权回归,只利用附近的点来计算,而不是全部的测试集。3. LOESSLOESS combines much of the simplicity of linear least squares regression with the flexibi
2011-10-23 20:34:04 538
转载 理解Linux的性能
http://www.linuxfly.org/post/114/项目中常遇到需要对目前运行的系统进行效率分析,或碰到客户咨询如何优化系统的效率问题。更多的情况是,在系统出现问题的时候,需要分析原因,定位系统故障或瓶颈,当然,最好是可以一并解决故障。但实际上,操作系统优化是一个非常复杂的问题,况且linux有自己一套有别于其他操作系统管理的机制,由此会引起很多不必要的误解和麻烦。自问我
2011-10-21 19:32:02 571
转载 推荐几个科研数据相关的下载平台
from: http://www.newsmth.net/nForum/article/AI/871411.科学网(http://www.sciencenet.cn/bbs) 推荐理由:起点比较高的科研网,资料很多,质量很高,且免费,还有大人物的博客。天天有币币赠送。 2,学问社区(http://www.51xuewen.com) 推荐理由:目前国内做大的学术社区,拥有
2011-10-19 22:05:19 4343
原创 nginx
from : http://wiki.nginx.org/ChsNginx ("engine x") 是一个高性能的 HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 代理服务器 。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的Ramb
2011-10-15 17:16:34 544
原创 电子商务与数据挖掘
1. 内容挖掘 (Web Content Mining)2. 结构挖掘 (Web Structure Mining) 3. 使用挖掘 (Web Usage Mining) 提高站点的质量 改善WEB缓存,缓解网络交通,提高性能 在电子商
2011-10-13 21:03:39 974
转载 Ubuntu 命令技巧
from : http://wiki.ubuntu.org.cn/UbuntuSkills目录[隐藏]1 前言2 安装升级 2.1 查看软件xxx安装内容2.2 查找软件库中的软件2.3 显示系统安装包的统计信息2.4 显示系统全部可用包的名称
2011-10-12 20:48:07 1942
转载 linux下SAR命令的用法
from: http://space.itpub.net/24435147/viewspace-694224dmesg可以直接查看cpu的主频,要查看CPU、内存的使用情况可以使用sar!sar 命令行的常用格式:sar [options] [-A] [-
2011-10-12 20:44:59 1612
原创 oprofile: a System-Wide Profiler
参考《Linux® Debugging and Performance Tuning: Tips and Techniques》 chapter 10oprofile is a low-overhead, system-wide profiler for Linux that
2011-10-12 20:43:01 689
原创 聚类分析
1. 数据挖掘对聚类分析的要求 可扩展性(Scalability) 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率 处理不同数据类型的能力 数字型;二元类型,分类型/标称型,序数型,比例标度型等等 发现任意形状的能力
2011-10-12 20:26:36 786
原创 数据挖掘对聚类分析的要求
1. 可扩展性(Scalability) 大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率 2. 处理不同数据类型的能力 数字型;二元类型,分类型/标称型,序数型,比例标度型等等 3. 发现任意形状的能力 基于距离的聚类算法往往
2011-10-07 19:25:32 2047
原创 分类和预测 2
预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。 预测和分类的异同 1. 相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归
2011-10-07 17:40:52 1579
原创 分类和预测
3个方向:1)基于数据库2)人工智能和机器学习3)基于统计学 1. 分类和预测的区别分类: 1) 预测分类标号(或离散值) 2) 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据 预测: 1) 建立连续函数值模
2011-10-07 11:59:54 1006
原创 Linux Event Logging
参考《Linux® Debugging and Performance Tuning: Tips and Techniques》 chapter 8syslogd/home/a/j/nomad2:ps -ef |grep klogdroot 4364 1 0 07:12
2011-10-06 20:01:33 910 2
原创 Apriori算法分析以及FP-tree算法
提高Apriori算法的有效性主要的挑战:1. 要对数据进行多次扫描2. 会产生大量的候选集3. 对候选项集的支持度计算会非常繁琐解决思路1. 减少对数据的扫描2. 缩小产生的候选项集3. 改进对候选项集的支持度的计算方法方法1:基
2011-10-06 12:31:08 3961
原创 诊断系统错误信息
参考《Linux® Debugging and Performance Tuning: Tips and Techniques》 chapter 7The Oops message is one way the kernel can show you that one of
2011-10-05 22:49:34 711
原创 大型数据库关联规则挖掘 - Apriori
如果项集的频率大于(最小支持度×D中的事务总数),则称该项集为频繁项集Apriori算法是挖掘布尔关联规则频繁项集的算法, Apriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的,模式不可能比A更频繁的出现Apriori算法是反单调的,
2011-10-05 20:03:18 610
原创 概念描述:面向数据库的方法与机器学习的方法比较
1. 面向数据库的方法:面向大型数据库的概念描述的概化方法 使用基于数据立方体的方法 或者 面向属性的归纳的方法 2. 机器学习:使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定 差异:
2011-10-05 17:39:35 811
原创 类比较的过程
1. 数据收集 通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类 2. 维相关分析 使用属性相关分析方法,使我们的任务中仅包含强相关的维 3. 同步概化 同步的在目标类和对比类上进行概化,得到主目标类关系/方
2011-10-05 17:36:10 528
原创 概念描述的属性相关分析步骤
解析特征化:属性相关分析 通过识别不相关或者是弱相关的属性,将它们排除在概念描述过程之外,从而确定哪些属性应当包含在类特征化和类比较中。1. 数据收集 通过查询处理,收集目标类和对比类数据 2. 使用保守的AOI进行预相关分析
2011-10-04 19:45:56 981
原创 查看进程资源
参考《Linux® Debugging and Performance Tuning: Tips and Techniques》 chapter 61. The wchan option is the most interesting option for finding t
2011-10-04 14:06:54 1110
原创 数据挖掘查询语言DMQL
一种数据挖掘查询语言DMQL,指定一个数据挖掘任务的五种原语(要素):1. 说明数据库的部分或用户感兴趣的数据集2. 要挖掘的知识类型3. 用于指导挖掘的背景知识4. 模式评估、兴趣度量5. 如何显示发现的知识Top-level syntax of a
2011-10-04 11:26:14 3865
原创 查看Linux系统信息
《Linux® Debugging and Performance Tuning: Tips and Techniques》 chapter 5/proc目录:Process-Specific SubdirectoriesEach process
2011-10-03 20:41:12 622
原创 4种内存管理调试工具
参考:《Linux® Debugging and Performance Tuning: Tips and Techniques》 chapter 41. memwatch2. yamd3. electric fence4. valgrind 因为unix-c
2011-10-02 22:04:19 776
原创 数据的离散化
离散化是将连续属性的范围划分为区间。 有效的规约数据应用在例如 基于判定树的分类挖掘。1) 离散化 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。 2) 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底
2011-10-02 20:48:01 833
原创 数据规约:对数线性模型
Log-linear models approximate discrete multidimensional probability distributions. The method can be used toestimate the probability of ea
2011-10-02 18:44:58 1146
原创 关于使用gdb的一些建议
参考:《Linux® Debugging and Performance Tuning: Tips and Techniques》 chapter 31. 测试程序/home/a/j/nomad2:cat gdb_sample2.c #include #include
2011-10-01 19:49:06 667
Inside Java Virtual Machine
2007-11-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人