- 博客(146)
- 资源 (40)
- 收藏
- 关注
原创 统计-5 事件关系
往往我们感兴趣的复杂事件是由多个简单的事件组成的,这些简单事件比复杂事件清晰易计算,因此只要搞清楚这些简单事件和复杂事件的关系,那可以简单事件的计算来得到复杂事件的概率了;下面是几类关系,事件本身是集合,因此也是事件集合的关系1. 事件的包含和相等事件A包括事件B,代表A发生则B必然发生, 若 ,则A = B;证明A和B相等的方法是假设A发生,则推出
2013-11-17 17:27:46 2994
原创 机器学习-5 线性回归 with R
一元线性拟合数据:见http://pan.baidu.com/s/1qu6dqoptions(scipen = 100)# 读文件city_gdp <- read.table("D:/Sepcial_For_R/city_gdp.txt", sep = "\t", col.names
2013-11-12 22:46:03 2396
原创 机器学习-4 线性回归 代码 matlab
%% linear regression from sunjerdege with matlabclear all;%% read GDP data% c1: city;c2:population;c3:GDP[city x y] = textread('D:\潜力股\Courses\城市人口_GDP数据.txt','%s%f%f');[num tmp] = size(x);x = x
2013-11-11 21:05:36 4229
原创 机器学习-3 logisitic 回归
LogisticRegression / 逻辑斯特回归Logistic回归解决的是当预测的值为两类bool的问题,比如邮件是否是垃圾、pv是否作弊等;那先的看看两类问题用之前的线性回归能有啥问题;如上两图,左边预测回归的是连续实数,趋势是单调的;而右边的预测的是bool值,这是应该叫做分类变量,如果依然用线性回归,结果如y1,看得出,由于
2013-11-10 15:55:13 2283
原创 统计-4 概率、古典概率
概率描述事件发生可能性的指标;假设4个人要出去玩,要决定是否带伞,因此对事件 A = “明天会下雨”估计,甲说100%可能下雨,乙说70%,丙说30%,丁说0%肯定不下雨;这些数字代表了每个人对A的主观估计,因此称之为主观概率;主观概率不是依据客观事实的,也许是根据个人经验,比如会看天象,也许是个人得失考虑,比如不带伞而下雨比带伞不下雨的代价大;其能代表了个人的倾向,社会学家可能根据大
2013-11-09 20:43:54 5297 1
原创 机器学习-2 多元线性回归、多项式回归
多元线性回归: 通过尺寸预测房价,只有尺寸一个特征,如果有多个特征比如楼层、房间数等,则1. Hypothesis:假设(输入到输出的映射) 2. Parameters:参数/特征权重 3. cost function:代价函数 4. Goal:目标函数 梯度下降迭代过程:R
2013-11-03 19:03:46 6196
原创 统计-3 数据的描述:统计量
数据描述:统计量一个原始观察值组成的数据包括的全部的信息,而从全部的信息中直接看出点什么还挺不靠谱,很多规律信息都被随机性掩盖了;因此,可以用统计量来是数据集中简单化,然后必然的会丢失某些信息,不过这些信息大多时候并不是重点,得大于失;1. 平均数 之 众数众数:一个变量出现次数最多的值;一般用来描述分类型的变量,比如性别、年龄区间;如果有两个值出现最多,那就有两个众数
2013-10-31 22:00:47 3514
原创 机器学习-1 概念和单变量线性回归
概念:脉络:统计概率 ->机器学习 -> 数据挖掘 / 模式识别 / NLP机器学习是研究如何让计算机具有自我学习能力的学科;Tom Mitchell把它描述为:假设任务(task)为T, 效果衡量指标为(performance measure)P,先验知识(experience)为E;那么ML就是从E学习,作用到T,并通过P来衡量效果;机器学习分类:
2013-10-31 01:30:06 2310
原创 Python笔记
Python,由吉多·范罗苏姆(Guido van Rossum)在1989打发圣诞节放假时间的一门“课余”编程项目,至今已有二十多年的历史,语法简洁清晰,深受喜爱;小窥# 查看版本python -V # 输出print "hello" # 输入str = raw_input("press any key")print str# 注释print "www
2013-10-29 09:45:27 1808
原创 统计-1、2 统计基础、数据采集
统计学基础定义Statistics的前部分为“state”,政府,原由是统计是300年前被首次应用在政府部门统计人口出生和死亡信息的;如今的统计学早已被应用在各个专业领域;统计学是用以收集数据、分析数据和数据推论的一组概念、原则和方法;是将数据转化为比数据本身更为复杂的知识,为其他学科提供一套研究对象的方法;(是不是应该叫统计哲学);统计学的主要思想包括随机性和规律性、概率、变量和常量
2013-10-29 09:44:18 2225
转载 C# SaveFileDialog 更改弹出信息
设置OverwritePrompt 属性为false,然后在FileOK中写自己的提示,并取消保存:SaveFileDialog dialog = new SaveFileDialog();dialog.OverwritePrompt = false;dialog.FileOk += (sender, e) => { if (System.IO.File.Exists(d
2013-08-11 18:42:46 3040
转载 Hadoop 错误码 查询
经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted""OS error code 2: No such file or directory""OS error code 3: No such pro
2012-09-04 20:39:29 2235
转载 话说泛函---Hilbert空间[转]
一百年前的数学界有两位泰斗: 庞加莱和希尔伯特, 而尤以后者更加 出名(在我的汉字系统下希尔伯特居然是一个词组), 我想主要原因是他曾经在1900年的世界数学家大会上提出了二十三个著名的希尔伯特问题, 指引了本世纪前五十年数学的主攻方向,不过还有一个原因呢, 我想就是著名的 希尔伯特空间了. 希尔伯特空间是老希在解决无穷维线性方程组时提出的概念, 原来的线性代数理论都是基于有限维欧
2012-08-20 17:22:12 3661
转载 C#获取字符串的长度
1、 使用g.MeasureString()获得使用MeasureString测量出来的字符宽度,总是比实际宽度大一些,而且随着字符的长度增大,貌似实际宽度和测量宽度的差距也越来越大了。查了一下MSDN,找到了下面这个理由:MeasureString 方法旨在与个别字符串一起使用,它在字符串前后包括少量额外的空格供突出的标志符号使用。 string str;
2012-06-09 13:33:53 2225
转载 awk 多文件处理
########################## 关于awk的多文件处理######################### awk的数据输入有两个来源,标准输入和文件,后一种方式支持多个文件。如:1. shell的Pathname Expansion方式:awk '{...}' *.txt # *.txt先被shell解释,替换成当前目录下的
2012-04-22 01:53:39 2146
原创 awk 使用技巧
1. awk输出不换行1)awk 'BEGIN{ORS=""}{print $0;}' //个人推荐2)awk '{printf("%s",$0);}'2. 适合具有任意多字段的地址awk -F',' '{ x=
2012-04-17 13:04:31 3572
转载 召回率与准确率
最近一直在做相关推荐方面的研究与应用工作,召回率与准确率这两个概念偶尔会遇到,知道意思,但是有时候要很清晰地向同学介绍则有点转不过弯来。 召回率和准确率是数据挖掘中预测、互联网中的搜索引擎等经常涉及的两个概念和指标。 召回率:Recall,又称“查全率”——还是查全率好记,也更能体现其实质意义。 准确率:Precision,又称“精度”、“正确率”。 以
2012-04-16 14:22:22 2442
转载 fstream实用例子
由于文件设备并不像显示器屏幕与键盘那样是标准默认设备,所以它在fstream.h头文件中是没有像cout那样预先定义的全局对象,所以我们必须自己定义一个该类的对象,我们要以文件作为设备向文件输出信息(也就是向文件写数据),那么就应该使用ofstream类。 ofstream类的默认构造函数原形为: ofstream::ofstream(constchar*filename,intmod
2012-04-15 17:07:38 2536
转载 在shell中如何分割字符串
用awk,比如你想用逗号‘,’来分隔字符串的话, 然后把第二个域的值赋给变量,可以这样:var=`echo "aaa,bbb,ccc "|awk -F ', ' '{print $2} ' ` echo $var 注意上面的单引号,双引号,以及符号`要获取分隔开的每个值,可以这样:var=`echo "aaa,bbb,ccc " | awk -F ', ' '{
2012-04-12 21:53:08 2908
原创 C/C++ 读文件方式类比
#include “iostream”#include “fcntl.h”#include “ctime”#include “stdio.h”#include “fstream”#include using namespace std;#define MAXNUM 5000000#define MAXCHAR 50*1024*1024
2012-02-23 15:24:36 2058
转载 C# 操作 word
Microsoft Office是微软公司推出的办公应用程序,主要包括Microsoft Word,Microsoft Excel、Microsoft Outlook和Microsoft Access等应用程序。提供了诸如字处理、表格处理、邮件处理和数据库等功能。目前被广泛使用的版本是Microsoft Office 2003和Microsoft Office 2007。作为微软公司推出的重量级编
2011-12-05 14:50:30 1409
转载 vs2005奇怪的断点无效问题
最近一工程中,在调试的时候,有些cpp文件都可以设置断点并且跟进去,但是有一个cpp文件总是不能设置断点,提示“当前不会命中断点。源代码与原始版本不同。” 重新更换过n次文件都不起作用,然后在goole搜索此类类似问题,找到下篇文章,然后我把那个cpp文件用记事本打开,另存为unicode格式,再重新编译,最后问题解决!也可以更改vs2005的设置,选项->常规,将要求源文件与原始版本完全匹配的勾
2011-11-18 20:59:58 791
转载 FP-Tree算法的实现
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。我们举个例子来详细讲解FP-Tree算法的完整实现。事务数据库如下,一行表示一条购物记录:牛奶,鸡蛋,面包,薯片鸡蛋,爆米花,薯片,啤酒鸡蛋,面包,薯片
2011-11-18 09:47:36 1990
转载 双缓冲应用 之 窗口绘图防闪烁,基于对话框的绘图
在使用VC++编写某些绘图程序时,你可能会发现,窗口在每次重绘时都会发生闪烁。特别是在绘制较复杂的图像时,这种闪烁将会更加剧烈。这里介绍一种防止窗口绘图时闪烁的双缓冲技术。首先,先解释一下什么叫双缓冲。双缓冲,即在内存中创建一个与屏幕绘图区域一致的对象,先将图形绘制到内存中的这个对象上,再一次性将这个对象上的图形拷贝到屏幕上,这样能大大加快绘图的速度。通过这个简短的解释,你是否对双缓冲
2011-11-12 16:39:39 1727 1
转载 关于visual studio类视图和资源视图不显示类和资源的问题
我电脑上安装的是visual studio 2010.昨天发现新建项目后类视图和资源视图不显示相关内容,大家知道,如果没有类视图的话会很不方便。在网上放狗搜索未找到解决方法,没办法,只有重安装了一遍,打开,发现问题依旧。我猜想是哪里设置出错了。后来在msdn论坛上找到了重置所有设置的方法:运行:devenv /resetsettings,此命令功能是重置IDE所有设置。(顺便再贴一个命令:deve
2011-11-12 09:15:44 6202
转载 VS2010,驾!VS2010加速方案
前段时间为了一个项目而把VS2008换成了VS2010,结果原本就不堪重负的本本跑起VS2010来那更是慢得没话说,于是看了遍VS2010选项,又从网上到处找资料找优化方法,总算使我的VS2010跑得快了些。一、VS2010选项视觉体验设置工具->选项->环境视觉体验的勾选都去掉。不解释,你懂得。二、禁用Intellisense(不建议)工具->选项
2011-11-10 21:09:10 1066
转载 怎样成为一名优秀的科学家
编者按:做一个好的科学家需要具备什么样的素质呢?微软亚洲研究院互联网搜索与挖掘组高级研究员李航博士总结出了六点特质,并以九名在机器学习、统计学等领域成就卓绝的科学家的真实故事为例,与读者分享这些特质所体现的耐人寻味的品格。作者:李航 曾经有同学问我:“做一个好的科学家需要有什么样的素质?” 这是一个不好回答的问题。让我总结,大概有以下几点:(1)酷爱研究,(2)勤奋
2011-10-27 15:27:04 2084
转载 OpenCV 完全安装
实践 VS2010+OpenCV2.1 + XP SP3-32位 安装设置参考:http://opencv.willowgarage.com/wiki/VisualC%2B%2B_VS2010_CMake OpenCV-2.1.0 using CMake and Visual C++ 2010 Express on Windows XP SP3 32-bit
2011-10-26 15:09:49 1661
原创 第四章 模式识别- 神经网络
第四章 神经网络 前两章的贝叶斯分类、非参数判别技术和本章的神经网络是三种监督的学习方法。 在非线性问题上,前面提到了“分段线性分类”的思路,然而当面对一个很复杂的样本空间时,求其各个类别之间的线性关系是很困难的,而多层神经网络提供了一个对任意分类问题寻求最
2011-10-19 11:42:17 1541
转载 我心目中的编程高手(完整版)
-- Bill Joy MIT BBS上说微软电话面试的一道题就是“Who do you think is the best coder, and why?”。我觉得挺有意思的,也来凑个热闹。排名不分先后。心目中的编程高手 (1) Bill Joy, 前
2011-10-17 17:29:49 1063
原创 算法总结(集体编程智慧) - 聚类、优化
非监督算法:聚类 1. 分级聚类每次寻找最近的2个进行合并(思路如同哈夫曼编码)2. K-均值聚类先设定k的中心(假设分为k类),每次计算空间样本与k个类中心分别距离,并归类,重新设定k中心,然后在重新计算,一直到k中心不再改变为之。
2011-10-17 10:48:55 1093
原创 算法总结(集体编程智慧) - 分类
监督算法:根据训练样本推测某一分类或某一数值。分类1. 贝叶斯分类器1.1 训练: 贝叶斯在对训练样本训练时,样本需要包含特征列表和对应的分类。比如,判断包含单词“Python”的文档是属于编程语言的,还是关于蛇的,如下图的:
2011-10-17 10:44:49 1709
转载 优化算法 - 遗传算法
遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识 作为遗传算法生物背景
2011-10-15 17:27:39 3287
转载 优化算法 - 爬山,模拟退火算法
一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一
2011-10-15 17:15:15 2205 1
原创 第四章 模式识别- 非参数技术
非参数技术 采用贝叶斯决策,需要对概率分布进行估计,然后通过最大似然或者贝叶斯估计的方法估计其分布的参数,然后在通过贝叶斯分类器进行分类,这种方法叫做参数判别方法。然后实际上,对样本分布的估计往往是不准确的,也是比较困难的,在本章就针对不同的情况,设计不同的分类器,这种
2011-10-15 11:09:32 2130 1
转载 基于物品的协作型过滤
由 小戴 在之前的利用皮尔逊相关度系数构建一个简单的推荐系统一文中,我们一起构建了一个简单的电影推荐系统。在那篇文章中我们使用基于用户的协作型过滤(user-based collaborative filtering)技术,利用来自以往每一位用户对电
2011-10-12 18:42:42 1446
转载 利用皮尔逊相关度系数构建一个简单的推荐系统
by 小戴伴随着Web2.0概念的普及,我们正在广泛地享受推荐系统给我们带来的便利。现代的电子商务、SNS社区等应用大量地使用了推荐系统。通过推荐系统,人人网帮我们找到多年未见的老友,亚马逊总能知道我们偏好什么样的商品,而豆瓣网更是将算法和产品完美结合的最佳典
2011-10-12 17:17:28 2954
转载 推荐系统:常用相似度计算方法
by 雨水无香 不论是推荐系统,还是搜索引擎,都经常需要比较两个项目之间的相似度。常见的思想是将项目的特征的权值表示为N维空间向量,然后利用代数方法,对两个空间向量之间的距离、夹角等进行度量,从而表示相似度。常用的相似度计算方法有如下几种:1.1 欧氏
2011-10-12 16:37:24 4473
转载 推荐系统:推荐方法
by 雨水无香1.1 基于内容的推荐系统 基于内容推荐是推荐系统中比较常见的一种做法,这种方法对于每个item基于其自身属性,抽取一些特征用来表示这个item的内容,从而推荐那些和当前item含有相同或相近特征的一些item。 这种推荐系
2011-10-12 16:33:56 1944
数据挖掘概念与技术 中文版 JiaWei Han
2009-09-22
指纹识别技术集合 指纹识别技术集合
2009-09-22
Pattern Classification duda 课后答案
2009-09-12
DES加密算法源码 DES加密算法源码
2009-06-10
IDA简易教程IDA简易教程IDA简易教程
2009-06-05
中科院研究生院李象霖教授《数字图像处理》课程上的OpenCV介绍
2009-05-30
Oracle触发器与存储过程高级编程
2009-05-24
staruml简明指导手册.rar
2009-05-22
CPU卡知识入门教程.rar
2009-05-22
C++程序员UML实务手册
2009-05-22
c++builder的英文帮助文档
2009-05-18
c++builder的中文帮助文档
2009-05-18
RealTime OS Systems
2009-03-15
数据挖掘10大算法-Freemind
2011-09-15
CBIR 内容 代码
2011-04-17
VC(6.0,2005,2008)工程重命名
2011-03-24
数字图像处理编程入门(吕风军).chm
2010-10-22
[C程序设计语言].The.C.Programming.Language
2010-10-22
Windows平台下Mysql C编程入门
2010-03-18
离散傅里叶变换详解 离散傅里叶变换
2010-01-16
http网络数据包截获与还原
2009-12-06
数据挖掘 apriori算法 C++
2009-10-03
数据挖掘实践 Data Mining CookBook
2009-09-25
Duda 模式分类 课后上机题源代码和答案
2009-09-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人