自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (7)
  • 收藏
  • 关注

原创 SimpleOCR--这款OCR软件不错

SimpleOCR--非常好用的一个OCR软件,百分之百免费。刚才试了试,体验很好。以前用google docs提供的OCR,但是最近google docs可悲地挂掉了,所以改用SimpleOCR。下载后安装即可使用。SimpleOCR有个显著的优点就是用户的纠正非常方便,如图,荧光部分做提示了图片中和文档中正在修改的词汇。但是,缺点就是还不够准确,其实google docs的OCR也面临这样的缺点。不过,能达到目前这种准确率也已经相当不容易了。既然是百分之百免费,他们怎么赚钱呢?一方面,当然是donati

2010-07-26 13:33:00 2857

原创 《数据挖掘概念与技术》学习笔记第4章(4/10)数据挖掘原语、语言和系统结构

<br /> <br />语法归纳<br />1说明任务相关的数据<br /><Data_Mining_Statement>::=<br />use database <database_name>| use data warehouse <data_warehouse_name><br />use hierarchy< hierarchy_name> for<attribute_or_dimension>}<br /><Mine_Knowledge_sepcification><br />in relev

2010-07-21 01:26:00 1157

原创 《数据挖掘概念与技术》学习笔记第3章(3/10)数据预处理

数据清理的方法:针对空缺值:保持空缺或者用最有可能的值补充(平均值,回归预测的值等等)针对噪声数据:1分箱:用箱中数据的平均值代替箱中的每一个数据。分箱也是一种数据平滑技术和数据离散化技术2聚类:通过聚类来检测孤立点(outlier)3计算机和人工检查结合:         4回归:针对不一致数据:修改数据集成:1实体:即识别真实世界中的实体的问题,比如customer_id和另一张表中的cust_number实际上是同一实体。可通过查看元数据来查清。2冗余:通过对两个属性进行相关分析来检测,度量属性A

2010-07-15 14:27:00 1776

原创 《数据挖掘概念与技术》学习笔记第2章(2/10)数据仓库和数据挖掘的OLAP技术

多维数据模型:数据仓库和OLTP基于多维数据模型,该模型将数据看成数据立方体(data cube).多维数据模型的形式有:星型模式: 一个事实表,若干维度表雪花模式:一个事实表,若干维度表,但是维度表是规范化的,即进一步把数据分解到附加的表中。省空间,花时间。事实星座模式:多个事实表,它们各自可以有自己独有的维度表,也可以共享维度表,并且维度表可以是规范化的也可以不是规范化的。数据挖掘查询语言DMQL:用DMQL来定义数据立方体:definecube []:用DMQL来定义维度:definedim

2010-07-15 13:34:00 1289

原创 《数据挖掘概念与技术》学习笔记第1章(1/10)引言

可伸缩性:一个算法是可伸缩的(scalable),如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。数据仓库data warehouse:数据仓库是从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据集市data mart:数据集市是数据仓库的一个部门子集。孤立点outlier:大部分数据挖掘方法将孤立点是为噪声或异常而丢弃,然而在一些应用中(如欺骗检测),罕见的时间可能比正常出现的那些更有趣。规则:对

2010-07-15 13:27:00 991

数据挖掘--概念.模型.方法和算法

本书全面讲述了数据挖掘的概念、模型、方法和算法。本书共包括13章和2个附录,全面、详细地讲述了从数据挖掘的基本概念到数据挖掘的整个过程,以及数据挖掘工具及其典型应用领域.

2009-09-20

机器学习 Tom Mitchell 中文版

书中主要涵盖了目前机器学习中各种最实用的理论和算法,包括概念学习、决策树、神经网络、贝叶斯学习、基于实例的学习、遗传算法、规则学习、基于解释的学习和增强学习等。对每一个主题,作者不仅进行了十分详尽和直观的解释,还给出了实用的算法流程。本书被卡内基梅隆等许多大学作为机器学习课程的教材。机器学习这门学科研究的是能通过经验自动改进的计算机算法,其应用从数据挖掘程序到信息过滤系统,再到自动机工具,已经非常丰富。机器学习从很多学科吸收了成果和概念,包括人工智能、概论论与数理统计、哲学、信息论、生物学、认知科学和控制论等,并以此来理解问题的背景、算法和算法中的隐含假定。

2009-09-20

机器学习英文版Machine Learning(Mitchell)(下)

本书展示了机器学习中核心的算法和理论,并阐明了算法的运行过程。本书综合了许多的研究成果,例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等,并以此来理解问题的背景、算法和其中的隐含假定

2009-09-14

机器学习英文版Machine Learning(Mitchell)(中)

本书展示了机器学习中核心的算法和理论,并阐明了算法的运行过程。本书综合了许多的研究成果,例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等,并以此来理解问题的背景、算法和其中的隐含假定。

2009-09-14

The C Programming Language 2nd Ed

C的入门经典,得到众多程序员的推荐。作者是Brian Wkernighan和Dennis M.Ritchie

2009-04-25

旅馆管理系统C#单机版

这是一本书上的旅馆管理系统的源代码,有数据库和详细的系统移植文件介绍。

2009-04-25

MLO-My Life Organized

一款国外的时间管理软件,进行个人管理时很实用,但不是源代码,程序员们莫打偶

2009-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除