自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 资源 (1)
  • 收藏
  • 关注

原创 一些网站

http://www.findbestopensource.com/home/http://stackoverflow.com/

2013-05-21 21:14:07 411

原创 朴素贝叶斯中的极大似然估计

为什么要极大似然估计, 朴素贝叶斯不能搞定一切吗?朴素贝叶斯需要先求得先验概率和条件概率。 从直觉出发,可以用样本中出现的频率直接代替先验概率和条件概率。 但事实上使用频率计算出来的值,也是极大似然估计的结果。极大似然估计回顾极大似然估计就是把样本的所有联合概率相乘(离散),或所有联合概率密度相乘(连续), 对参数求偏导=0使其最大,从而解出参数的值。这里需要求的是条件概率和先验概率,因此需要想办法把这两项放到极大似然函数中作为参数。考虑到联合分布即是这两项的值,直接拆开即可..

2021-03-31 00:10:58 2930

原创 感知机

感知机模型(未完待续)感知机通过学习出一个超平面将数据分隔成两部分,实现二分分类的效果。使用感知机的前提是数据线性可分(凸包?)公式f(x) = sign(wx + b)其中w和x都是向量。 w表示weighted vector, b表示bias。 当w为二维时,表示用一条线分割平面。 当w为三维时,表示用一个平面分隔一个三维空间。wx+b的几何解释w为超平面的法向量,b为截距。点到平面距离:(wx + b) / ||w||感知机策略如何表示经验风...

2021-03-29 20:11:57 215

转载 【转】李航-统计学习方法课后习题答案

第一章https://blog.csdn.net/familyshizhouna/article/details/70160782第二章2.1-2.2https://blog.csdn.net/cracker180/article/details/787783052.3https://blog.csdn.net/xiaoxiao_wen/article/details/54097835感知机,线性可分和线性不可分的相关讨论,https://blog.csdn.net/taoyanqi8932...

2021-03-23 13:50:28 1159

原创 监督学习的三类问题-分类问题,标注问题,回归问题

分类问题输出为有限个离散值的监督学习,输入可以是连续或者离散的。二类分类和多类分类。二类分类的四种情况(T/F表示预测结果是否正确,P/N表示预测结果的值)TP - 将正类预测为正类TN - 将负类预测为负类FP - 将负类预测为正类FN - 将正类预测为负类精确率、召回率和F1精确率: 预测正确的正类与预测结果为正类的比例precision = TP / (TP + FP)召回率:预测正确的正类与实际的正类的比例recall = TP / (TP..

2021-03-23 13:24:38 1502

原创 生成模型和判别模型

生成方法所学到的模型为生成模型。判别方法所学到的模型为判别模型。通过生成方法能得到联合概率分布,通过判别方法只能得到条件概率或决策函数。生成方法收敛更快,存在隐变量时也可以使用(?)。判别方法直接得到条件概率或决策函数,面向结果,可以对数据进行抽象,定义特征和使用特征,简化学习过程。(大多数用的都是判别方法?)...

2021-03-22 16:00:54 73

原创 过拟合问题和解决方案

过拟合模型越复杂,模型对训练集的测试效果越好,但对测试集的测试效果很差,此时称为过拟合。如样本是9个点,当多项式回归是2次或3次时,拟合效果不错但仍有误差; 当多项式是9次时,可以计算出一条曲线完美通过所有样本点,但这种方式显然把样本的噪音全部拟合出来了,模型放到训练集时效果很差。对此,有正则化(加惩罚项)和交叉验证两种方法来避免过拟合。正则化正则化假设有效的模型不会太复杂(奥卡姆剃刀定律),在经验风险后面加上一个惩罚项,得到结构风险表达式。在多项式回归中,惩罚项可以是参数向..

2021-03-22 15:32:49 215

原创 统计学习方法三要素-模型, 策略, 算法

模型什么是模型要学习的条件概率分布或决策函数模型假设空间所有可能的条件概率分布或决策函数的集合,由一组参数向量决定(参数空间)理解模型可能是条件概率分布(概率模型)或决策函数(非概率模型)。当它是条件概率分布是, 我们要做的是在给定条件(输入即为给定条件)的情况下,求出一个输出使得概率最大。典型方式是概率学中学习的最大既然估计,即每个样本带入后概率之积最大,此时转换为求函数最值问题,即先确定单调性,求偏导找极值,转换成用线性代数方法解方程。(贝叶斯方法?)当它是决策函数时,.

2021-03-22 13:26:24 398

转载 通过金矿模型介绍动态规划

http://www.cnblogs.com/sdjl/articles/1274312.html----第四节----总结-------        那么遇到问题如何用动态规划去解决呢?根据上面的分析我们可以按照下面的步骤去考虑:        1、构造问题所对应的过程。       2、思考过程的最后一个步骤,看看有哪些选择情况。       3、找到最后一步

2016-08-30 16:20:39 979

原创 递归算法的优化思路和CPS

递归算法的本质是定义一个规则, 让程序根据规则去帮你完成一件事。然而递归被吐槽的最多的事它感人的性能和爆栈的可能性,有必要整理一下如何对递归程序做优化。这里先以Fibonacci为例。Scala代码:def fib1(n: BigInt): BigInt = { if(n == 0) 0 else if(n == 1) 1 else fib1(n - 1

2016-08-29 21:28:38 3569

原创 找出元音字母并排序

#include using namespace std;int getIndex(char c) { switch(c) { case 'a': return 0; case 'e': return 1; case 'i': return 2; case 'o': return 3; case 'u': return 4;

2013-09-21 16:34:58 1242

原创 手机号验证

#include using namespace std;int getLen(const char *inMsisdn) { int i = 0; while(inMsisdn[i] != '\0') { i++; } return i;}bool hasNotNum(const char *inMsisdn) { int i = 0; while(inM

2013-09-21 16:09:16 887

原创 删除子串

#include using namespace std;int getStrLen(const char *str) { int i = 0; while(str[i] != '\0') { i++; } return i;}bool isMatch(const char *str, int i, const char *sub_str) { int j =

2013-09-21 15:55:19 573

原创 大数加法

#include #include #include using namespace std;void debug(const string &str) { cout << "debug: " << str << endl;}int getLastIndexOfNum(const char *num) { int index = 0; while(num[index] != '\0') { ind

2013-09-21 15:20:04 566

转载 浅谈操作系统对内存的管理

转自:http://www.cnblogs.com/CareySon/archive/2012/04/25/2470063.html浅谈操作系统对内存的管理简介    内存是计算机中最重要的资源之一,通常情况下,物理内存无法容纳下所有的进程。虽然物理内存的增长现在达到了N个GB,但比物理内存增长还快的是程序,所以无论物理内存如何增长,都赶不上程序增长的速度,所以

2013-07-13 14:41:02 494

原创 scons构建入门

代码同:C++动态链接SConstructlib_src=Split('hello.cpp')lib_name='libhello.so'target_src=Split('test.cpp')SharedLibrary(lib_name,lib_src)Program('test',target_src,LIBS=lib_name,LIBPATH='.')

2013-07-06 14:32:44 630

转载 scons学习

转自:http://hi.baidu.com/black/item/706f17496e1fbde21281da4cscons 学习作者:Sam(甄峰) sam_code@hotmail.comhttp://www.scons.org/Sam有个好朋友是做游戏的,整天嘲笑做嵌入式的用的工具多土多原始。gdb不是图形化,DDD又没VC调试好用,只会写Makefile等

2013-07-06 14:07:48 843

原创 c++动态链接

hello.cpp#include "hello.h"#include using namespace std;void hello(){ cout<<"hi"<<endl;}hello.hvoid hello();test.cpp#include "hello.h"int main(){ hello();}g++ hello.cpp

2013-07-06 13:34:33 427

转载 C/C++程序编译步骤 如何生成可执行文件

原文地址:http://blog.csdn.net/huichengongzi/article/details/6284830C/C++语言很多人都比较熟悉,这基本上是每位大学生必学的一门编程语言,通常还都是作为程序设计入门语言学的,并且课程大多安排在大一。刚上大学,孩子们还都很乖,学习也比较认真,用心。所以,C/C++语言掌握地也都不错,不用说编译程序,就是写个上几百行的程序都不

2013-07-06 10:10:44 845

转载 gcc编译过程

gcc的编译流程分为四个步骤,分别为:· 预处理(Pre-Processing)· 编译(Compiling)· 汇编(Assembling)· 链接(Linking)以hello.c为例子,在这四个步骤中可以设置选项分别生成hello.i, hello.s, hello.o以及最终的hello文件:hello.c : 最初的源代码文件;hello.i : 经过编译预处

2013-07-03 16:42:30 446

转载 Emacs入门之常用命令

转自:http://www.cnblogs.com/shengansong/archive/2012/04/18/2456035.htmlEmacs入门之常用命令C - v 下一屏M - v 上一屏C - f 往前一个字符C - b 往后一个字符C - p 上一行C - n 下一行M - f 往前一个词M - b 往后一个词C -

2013-07-03 10:37:57 406

原创 emacs学习心得

1.打开文件c-x c-f filename2.关闭文件c-x k 3.保存文件c-x s4.另存文件c-x w5.光标移动前进一格:c-f后退一格:c-b下一行:c-n上一行:c-p前进一个单词:m-f后退一个单词:m-b6.增删改c-k:删除当前行光标后的所有内容c-y:粘贴,可以去除上次删除后的内容c-t:交换当前字符和

2013-07-02 19:50:22 477

转载 Emacs入门

转自:http://blog.163.com/niujiashu@126/blog/static/1002930422010913101814588/Emacs 零海拔入门(by刘鑫)  2010-10-13 10:18:14|  分类: 计算机|字号 订阅Emacs 零海拔入门文档属主: 刘鑫版本历史:

2013-07-02 14:20:45 809

转载 SVN merge和branch

转自http://www.cnblogs.com/cxd4321/archive/2012/07/12/2588110.htmlsvn merge和branch使用svn几年了,一直对分支和合并敬而远之,一来是因为分支的管理不该我操心,二来即使涉及到分支的管理,也不敢贸然使用合并功能,生怕合并出了问题对团队造成不良影响,最主要的原因是,自己对分支的目的和合并的方

2013-06-27 15:37:32 642

原创 姜迅谈阿里设计数据架构和经验

视频地址:http://www.infoq.com/cn/interviews/jx-alibaba-data-architecture-design1.数据分析的价值可以通过询盘来推断进出口额。阿里的数据直接和钱有关,目的性很强,对宏观经济分析有很高的价值。可以根据衣服的尺码来推算中国人的体型(胖瘦),有社会价值。2.大数据需要什么架构来支撑单机->Oracle

2013-06-19 01:43:20 816

转载 hadoop启动错误 找不到路由 解决方法

hadoop启动过程中遇到下面的问题:2012-07-04 18:43:20,763 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG:/************************************************************STARTUP_MSG: Starting Dat

2013-06-08 14:33:19 786

转载 VMware linux 增加根目录空间 (使用图形分区工具gparted LiveCd)

转自:http://blog.csdn.net/microad_liy/article/details/7667670写这篇文章的原因:最近要给服务器Centos上的ruby版本升级,由于是第一次升级,不敢直接在服务器上操作。所以在我的winxp上装了Vmware ,又在Vmware中装了Centos5.2.用yum install装一些补丁包后,Centos的根目录空间就不够

2013-06-07 20:33:41 706

原创 《基于语义域语言模型的中文话题关联检测》笔记

主文献:基于语义域语言模型的中文话题关联检测 洪宇等======================================================================================名词解释:语义域:语义趋近一致的语言结构的集合。语义片段:描述某一语义的最小语言结构语境:同时包含语义片段及其上下文的语言结构。报道:是以一

2013-05-30 16:55:13 825

转载 数据挖掘面试题总结

1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?      方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。      s遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样

2013-05-28 19:13:32 475

原创 《大数据》笔记 相似项发现

1.近邻相似度1.1集合的Jaccard相似度 两个集合的交集除以并集1.2 文档相似度抄袭文档镜像页面同源新闻稿晕死...怎么计算文档相似度???????1.3 协同过滤就是推荐系统。。。看9.3节2.文档的shingling问题的解答来了2.1 k-shingle字符串中长度为k的子串例:{abcdabd} k = 2k-shin

2013-05-22 02:38:13 1498

转载 10 sites to get the large data set or data corpus for free

You may require GBs of data to do performance or load testing. How your app behaves when there is loads of data. You need to know the capacity of your application. This is the frequently asked questio

2013-05-21 21:10:32 812

原创 《大数据》笔记 TF.IDF

TF.IDF在Lucene中被用来计算关键词和检索结果的相关度。TF = Term Frequency反映关键词在某篇文档中出现的频率,频率越高,自然就越相关TF不是(关键词出现个数)/(所有词个数),而是做了归一化的(关键词出现个数)/(这篇文档中出现次数最多的那个词的出现个数)。IDF = Inverse Document Frequency首先看DFDF是(出

2013-05-20 00:18:00 731

原创 《大数据》笔记 Bonferroni correction

引用《大数据》原文假设我们确信在某个地方有一群恶人,目标是把他们揪出来。再假定我们有理由相信,这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模,我们再给出如下假设:(1) 恶人数目可能有10亿;(这里翻译的不好,不是说有10亿个恶人,而是这10亿个人都有作恶的嫌疑,实际的恶人数只是这10亿人中的10人)(2) 每个人每100天当中会有一天去宾馆;(3)

2013-05-19 23:35:30 2567

转载 解析JDK 7的Garbage-First收集器

转自:http://icyfenix.iteye.com/blog/1179673Garbage-First(后文简称G1)收集器是当今收集器技术发展的最前沿成果,在Sun公司给出的JDK RoadMap里面,它被视作JDK 7的HotSpot VM 的一项重要进化特征。从JDK 6u14中开始就有Early Access版本的G1收集器供开发人员实验、试用,虽然在JDK 7正式版发布时,

2013-05-18 21:00:52 547

原创 Serial模式下的GC测试

环境:windows7 64bitJDK1.7.0_07测试1:没有手动分配任何对象时的内存状况VM参数:-XX:+UseSerialGC -Xmx20m -Xms20m -verbose:gc -XX:+PrintGCDetails -Xmn10m -XX:SurvivorRatio=8使用传统的SerialGC,最大堆内存20m,年轻代10m,Survivor与Eden

2013-05-18 20:29:40 605

原创 JAVA GC 总结

概念:Minor GC:新生代的垃圾收集Full GC:老年代的垃圾收集,通常伴随Minor GC(非绝对)Full GC 通常比Minor GC慢10倍以上===========================================================================一、判定对象是否存活1.1.引用计数算法实现简单,无法解决循

2013-05-18 17:07:26 639

转载 关于分布式系统的数据一致性问题

关于分布式系统的数据一致性问题  作者:爱公司的程序员,发布于2012-11-6,来源:博客园 现在先抛出问题,假设有一个主数据中心在北京M,然后有成都A,上海B两个地方数据中心,现在的问题是,假设成都上海各自的数据中心有记录变更,需要先同步到主数据中心,主数据中心更新完成之后,在把最新的数据分发到上海,成都的

2013-05-17 14:42:58 1350

原创 Java查看GC情况

import java.util.ArrayList;import java.util.List;public class VMTest { public static void main(String[] args) { List l = new ArrayList(); while(true) { try { Thread.sleep(1); new T

2013-05-16 21:21:16 1345

原创 JVM中MemoryUsage中init,committed,used,max的含义

以下摘抄自JDK1.7 * * * init * represents the initial amount of memory (in bytes) that * the Java virtual machine requests from the operating system * for memory management during st

2013-05-16 20:14:24 20897 2

转载 java jvm 参数 -Xms -Xmx -Xmn -Xss 调优总结

常见配置举例 堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制.32位系统 下,一般限制在1.5G~2G;64为操作系统对内存无限制.我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m.典型设置: java -Xmx3550

2013-05-15 17:02:05 1154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除