机器学习
文章平均质量分 58
jpmf007
这个作者很懒,什么都没留下…
展开
-
机器学习入门
机器学习是什么?从数据处理来看,简单地说,就是计算机自动从已有数据中寻找规律,然后用规律解决新问题。这个说法虽然比较易于理解,但是同时把机器学习的范围限定窄了。我自己认为 机器学习 强调的是 学习能力,虽然它的目标是解决问题。就像人一样,人的学习能力并不是为了特定目标或者特定任务存在的,而是客观存在着,并且在遇到各种需求时演变到解决各种问题的能力。当然这也是大多数学者的观点,机器学原创 2013-01-11 14:41:12 · 614 阅读 · 0 评论 -
算法诊断,分析与优化等
通常我们在解决问题时,对算法的态度是:“嗯嗯,这个算法有用,效果不错。”“不行,这个效果太差。不过发现另外有个表现不错,可以使用。”但是从研究算法,学习算法的角度上面讲,这种态度显然是非常不可取的。要学习算法,就要学会使用批判的眼光去看待算法。Mindhacks刘未朋也多次提到他学习算法的经验,一定要推导算法,思考算法为什么这么做,这么做是不是最优的,用另一种方法可不可以,其他方法为什原创 2013-01-11 20:39:01 · 593 阅读 · 0 评论 -
数据挖掘 重点内容
数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出转载 2013-02-25 21:56:44 · 2019 阅读 · 0 评论 -
数据挖掘导论
20世纪60年代,从文件处理演化到数据库系统;20世纪70年代,演化到关系数据库,联机事务处理(OLTP)将查询看做只读事务;80年代中期到现在,研究分布性、多样性和数据共享等问题,还有基于Internet的全球信息系统;80年代后期到现在,出现的数据库结构是 数据仓库,可将多个一种数据源在单个站点以统一的模式组织存储;数据仓库技术包括 数据清理、数据集成 和 联机分析处理(OLAP)原创 2013-03-15 18:06:45 · 892 阅读 · 0 评论 -
基于朴素贝叶斯分类器的文本分类算法
转自 博客园 洞庭散人的博客最近在看贝叶斯分类,然后网上发现这篇博客,代码写的很容易理解,转载保存。Preface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法(上)》一文中简单介绍了贝叶斯学习的基转载 2013-03-25 15:42:33 · 1055 阅读 · 0 评论 -
大数据相关的问题
转载的李教授关于大数据的一些思考,其实也正是大数据研究需要解决的一系列问题。存储在线(http://www.dostor.com/article/2012/1203/1448309.shtml)2012-12-03 报道: 由中国计算机学会主办、CCF大数据专家委员会承办HBTC2012Hadoop与大数据技术大会于11月30日在北京举行。本届大会以大数据共享与开放技术为转载 2013-09-10 17:17:30 · 2742 阅读 · 1 评论 -
【读书笔记】大数据 数据挖掘 相关
《Taming the big data tidal wave》 Bill Franks大数据定义:超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理能力的数据。除了容量大,大数据的大还体现在多样性、速度及复杂度等多个方面。大数据会改变数据的分析策略和工具,但是不会改变人们的动机——从分析数据获取价值。大数据最大的风险在于隐私纠纷。《Minin原创 2013-09-30 10:08:24 · 977 阅读 · 0 评论 -
多示例学习分类
多示例学习最早是由一位研究药物分子的时候提出。人们尝试从已知有效的药物分子数据预测未知的分子是否有效,其中存在的问题是,有效的药物分子有很多种同分异构体,学过化学的都知道,同分异构体最坑了,随着原子数目增多,同分异构体数量比指数级上升还要指数级……因此嘞,你懂的,就算分类之后,只知道分子表达式还是搞不清楚里面哪种结构的同分异构体是有效成分,就是说,标签是1的类里面也存在很多本应该标签是0的结构,只原创 2013-09-30 10:59:35 · 8524 阅读 · 0 评论 -
普适计算的探索
最深奥的技术恰恰是那些看不见的技术。这些技术交织于日常生活之中,与生活融为一体,直至无法区分。 ——马克·威瑟尔,1991年如今各种设备已经给我们提供了相当丰富的信息库,然而,“结构化”的可以被其他服务或应用重复利用的信息却不足5%。当今信息技术的问题在于:1.信息掌控力——控制信息的访问;2.信息过载——找到需要的信息;3.互操作——数据被相关设备或原创 2013-09-30 10:02:06 · 970 阅读 · 0 评论