2011年05月_iteye_14216

原创网易计算机公开课

国外著名高校的公开课，对字幕进行了翻译，感觉不错：[url]http://so.v.163.com/movie/listpage/listprogram1/pl2/%BC%C6%CB%E3%BB%FA/default/fc/ot/default/1.html[/url]最近在看斯坦福大学公开课：机器学习...

2011-05-29 10:14:01 191

Mysql数据库优化学习之二索引优化（一）

转载请标明出处： http://fuliang.iteye.com/blog/1063352 索引基础知识索引是帮助MySQL有效检索数据的一种数据结构，它是获得高性能的关键，但是人们常常忘记或者错误的理解了它，所以索引通常是现实中最常出现的性能问题。当你的数据变得很大时，索引变得非常重要，即使很轻负载的数据库没有恰当的索引，随着数据的增加，性能也会很快的下降。MySQL使用索...

2011-05-29 00:25:43 163

模式识别和机器学习笔记第四章线性分类模型（一）

转载请标明出处： http://fuliang.iteye.com/blog/1060530在前面的章节，我们已经看到线性回归模型具有很简单的分析性和计算性。我么现在我们讨论这种类似的模型来解决分类问题。分类的目的是给出一个输入向量X，将它赋值为k个离散的类别Ck之一，通常的情景是类别是不想交的，每一个输入只会有一个类别。这样输入空间被分成决策区域，它的边界被称为决策边界。本章我们考虑用于...

2011-05-26 23:36:01 984

原创 Mysql数据库优化学习之一 Schema优化

对一个设计拙劣或者没有做index的schma进行优化，可以很大程度的改善性能。如果想获得很好的性能，就需要对你运行的特定的queries来设计schema和索引，你需要估计不同类query的性能需求，和使用的频度，以及需要检索的字段和检索的条件。优化是一个权衡，索引可以提高检索速度，但是会降低更新速度，一个反范式的schema可能会在某些查询下加快速度，但在其他情况下可能降低速度...

2011-05-12 23:32:29 193

原创 [zz]数据挖掘邻域的5篇经典文章

转载自 http://www.dataminingblog.com/top-five-articles-in-data-mining/Data Mining博客最近有篇文章，列举了他们认为的数据挖掘领域的5篇经典文章。个人深为赞同，所以转载一下。An Introduction to Variable and Feature SelectionIsabelle Guyon a...

2011-05-12 13:50:52 313

版本分支控制几种方式

如何分支和tags，这个是经常被争议的话题，参考svn最佳实践，主要有以下三种方式：The Never-Branch system通常在项目的初期，还没有发布可运行的版本。用户每天都把代码提交到/trunk 在复杂的任务可能会出现/trunk的代码处于通不过编译的错误状态非常简单的策略，不需要merge代码，不需要学习分支和tag。The ...

2011-05-05 18:49:07 362

原创 Ruby发送json请求

[code="ruby"]require 'net/http'require 'uri'require 'json'customers = [{ "id" => 1123, "name" => "B-abc", "citys" => "", "company" => "&qu

2011-05-05 18:37:50 654 1

原创 HttpClient Json请求工具

发送Json请求，结果返回Json.[code="java"]public static JSONObject post(String url,JSONObject json){ HttpClient client = new DefaultHttpClient(); HttpPost post = new HttpPost(url); JSONObject respon...

2011-05-05 18:32:03 439

原创大规模数据挖掘-第三章学习笔记二

3.4 文档局部性敏感哈希（Locality-Sensitive Hashing for Documents）虽然我们可以通过minhash来压缩大的文档到小的签名，并且仍然能够保留每对文档的相似性。但是找到相似的对仍然很难实现，因为虽然文档数可能不是非常多，但是文档的对数会变得非常的大。如果我们的目标是计算每对文档的相似度，那么我们没有办法减少我们的工作量，虽然并行处理的方法可以减少...

2011-05-02 21:12:09 172

原创大规模数据挖掘-第三章学习笔记一

第三章查找相似的Items数据挖掘的一个基本问题是检测相似的Items.比如网页去重，从网页集合中找到近似重复的网页，这类网页通常是内容相同，但是有一些是关于不同站点和镜像的内容。这章从集合中找到交集，交集和集合大小的相对比率表示相似度，展开介绍相似度。我们会介绍怎样把文本文档的相似性表示为集合问题，这种技术被称为指纹方式。然后介绍了minhashing,他可以将大的集合压缩，并从压缩后...

2011-05-01 00:06:11 286

fuliang