- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 数据挖掘笔记:Review_2
链接分析 简单PageRank,节点投票,只考虑入度对自己的贡献 为应付爬虫陷阱和终节点,引入一个随机跳转的概率β 大规模PageRank的计算方法,存储上压缩,分批处理,计算加速: 1. M矩阵的稀疏特点,可以只存储非零元素 2. 将M矩阵存放在磁盘中,运算时分批加载矩阵中的向量 3. 当连r[old]和r[new]这种状态向量也无法存储在内存时,就要把r[old]和r[
2016-02-25 20:47:44 1011 1
原创 数据挖掘笔记:Review_1
学习斯坦福CS246提供的课程课件做的期末总结 相对于机器学习、人工智能和数据库统计,数据挖掘更强调: 1. 特征与实例数量上的可扩展性 2. 算法与架构 3. 大规模数据的自动化处理 如何综合运用数据挖掘诸知识点: 根据不同的数据类型 根据不同的计算模型
2016-02-25 19:57:59 1153 1
翻译 Terrier文档翻译:配置概述
配置 Terrier 配置概述 Terrier 全都是由几个文件来配置的,都在 etc/目录。最核心的文件是 terrier.properties 和terrier-log.xml。 在terrier.properties里,你可以指定Terrier中定义的任意变量的属性。 属性文档页(Properties)列出了你配置Terrier会用到的大部分属性。,而javadoc 里列出了那些直接影响
2016-02-07 13:17:09 1112
翻译 Terrier文档翻译:组件
Terrier 组件 在这一页我们会为Terrier的主要组件及其交互做一个概述。 组件交互 索引 下图展示了在索引过程中涉及到的主要组件之间的交互。 一个语料库将被表示成一个Collection 对象的形式。裸的文本数据会被表示成一个Document 对象的形式。 Document的实现往往是用一个Tokeniser类的实例将文本片段打碎成单一的索引标记(token
2016-02-07 13:09:59 1194
EM算法逼近GMM参数针对二维数据点的python实现
2018-06-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人