机器学习
美丰丰
这个作者很懒,什么都没留下…
展开
-
weka:memory not enough,please load a smaller dataset or need larger heap size
方法一;java -Xmx1024m -jar weka.jar方法二:RunWeka.inimaxheap=1024m原创 2013-11-26 10:12:37 · 3467 阅读 · 1 评论 -
Weka中Apriori算法实用与分析
一、Apriori算法参数含义本次共进行了9组实验,使用了weka安装目录data文件夹下的contact-lenses.arff数据。 ToolsàArffViewer,打开contact-lenses,可以看到实验数据contact-lenses共有24条记录,5个属性值。具体内容如下: weka数据集格式arff arff标准数据集简介翻译 2013-12-23 13:35:53 · 15413 阅读 · 2 评论 -
deep learning的网址
收集了一些Deep Learning的源代码。主要是Matlab和C++的,当然也有python的。放在这里,后续遇到新的会持续更新。下表没有的也欢迎大家提供,以便大家使用和交流。谢谢。 最近一次更新:2013-9-22Theanohttp://deeplearning.net/software/theano/code from: http://de转载 2014-03-05 11:21:36 · 1179 阅读 · 0 评论 -
Trie数的应用
Trie树 Trie树也称字典树,因为其效率很高,所以在在字符串查找、前缀匹配等中应用很广泛,其高效率是以空间为代价的。一.Trie树的原理 利用串构建一个字典树,这个字典树保存了串的公共前缀信息,因此可以降低查询操作的复杂度。 下面以英文单词构建的字典树为例,这棵Trie树中每个结点包括26个孩子结点,因为总共有26个英文字母(假设单词都是转载 2014-09-11 21:51:06 · 513 阅读 · 0 评论 -
面试中的大数据
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大 的几转载 2014-09-11 21:21:20 · 1353 阅读 · 0 评论 -
数据挖掘、数据分析、海量数据处理的面试题---转载
缘由由于有面试通知,现在复习一下十道和海量数据处理相关的题。两篇博客已经讲的非常完备了,但是我怕读懂了并非真的懂,所以必须自己复述一遍。教你如何迅速秒杀掉:99%的海量数据处理面试题海量数据处理:十道面试题与十个海量数据处理方法总结MapReduce技术的初步了解与学习面试归类下面6个方面覆盖了大多数关于海量数据处理的面试题:分而治之/hash映射 + hash统计转载 2014-09-11 21:31:50 · 1482 阅读 · 1 评论