2016年02月_nankaizhl

12月 11月 10月 02月 01月

原创数据挖掘笔记：Review_2

链接分析简单PageRank，节点投票，只考虑入度对自己的贡献为应付爬虫陷阱和终节点，引入一个随机跳转的概率β 大规模PageRank的计算方法，存储上压缩，分批处理，计算加速： 1. M矩阵的稀疏特点，可以只存储非零元素 2. 将M矩阵存放在磁盘中，运算时分批加载矩阵中的向量 3. 当连r[old]和r[new]这种状态向量也无法存储在内存时，就要把r[old]和r[

2016-02-25 20:47:44 1011 1

原创数据挖掘笔记：Review_1

学习斯坦福CS246提供的课程课件做的期末总结相对于机器学习、人工智能和数据库统计，数据挖掘更强调： 1. 特征与实例数量上的可扩展性 2. 算法与架构 3. 大规模数据的自动化处理如何综合运用数据挖掘诸知识点：根据不同的数据类型根据不同的计算模型

2016-02-25 19:57:59 1153 1

翻译 Terrier文档翻译：配置概述

配置 Terrier 配置概述 Terrier 全都是由几个文件来配置的，都在 etc/目录。最核心的文件是 terrier.properties 和terrier-log.xml。在terrier.properties里，你可以指定Terrier中定义的任意变量的属性。属性文档页（Properties）列出了你配置Terrier会用到的大部分属性。，而javadoc 里列出了那些直接影响

2016-02-07 13:17:09 1112

翻译 Terrier文档翻译：组件

Terrier 组件在这一页我们会为Terrier的主要组件及其交互做一个概述。组件交互索引下图展示了在索引过程中涉及到的主要组件之间的交互。一个语料库将被表示成一个Collection 对象的形式。裸的文本数据会被表示成一个Document 对象的形式。 Document的实现往往是用一个Tokeniser类的实例将文本片段打碎成单一的索引标记（token

2016-02-07 13:09:59 1194

EM算法逼近GMM参数针对二维数据点的python实现

EM算法逼近GMM参数针对二维数据点的python实现。 GMM即高斯混合模型，是将数据集看成是由多个高斯分布线性组合而成，即数据满足多个高斯分布。EM算法用来以迭代的方式寻找GMM中个高斯分布的参数以及权值。GMM可以用来做k分类，而混合的高斯分布个数也就是分类数K。

2018-06-21

找座位问题

一个找座位的算法实现，编程练习。一行有7个座位，要求必须找到靠边的座位或与已有人的座位保持一个以上间隔，求在给定作为情况下的解决方案数。

2014-06-23

poj第5小题

解决poj1005买地问题，涉及几何计算

2014-06-23

poj1004代码

poj1004题，解决一年账目高效求平均问题

2014-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 数据挖掘笔记：Review_2

原创 数据挖掘笔记：Review_1

翻译 Terrier文档翻译：配置概述

翻译 Terrier文档翻译：组件

EM算法逼近GMM参数针对二维数据点的python实现

找座位问题

poj第5小题

poj1004代码

空空如也

原创数据挖掘笔记：Review_2

原创数据挖掘笔记：Review_1