- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 Mining Massive Datasets课程笔记(五)Web广告
Online Algorithm通常的算法工作流程是,输入数据全部准备好了,我们能随时访问到所有的数据然后进行处理,从而输出结果,这类算法称之为”离线“算法(Off-line) 但是,有时候我们并不能获取全部数据,或者数据太大且有时间要求,需要在当前数据达到时作出应答,如前面课程中的流数据。这类算法称为”在线“算法(Online),在线算法与data Stream Model有些类似但并不完全相同
2015-10-27 00:44:42 2223
原创 C++调用python:无参数,简单helloworld示例
运行环境:VS2015 + python3.4 总体步骤简单来说如下:设置编译环境,其实就是设置Python的头文件和库文件目录以及一个很让人头疼的python3.4_d.lib问题初始化Python解释器: Py_Initialize();调用Python释放资源 Py_Finalize();设置编译环境首先新建一个控制台程序 点开程序属性设置如下几个地方,对应的分别是
2015-10-26 01:27:42 3011 4
原创 Mining Massive Datasets课程笔记(五)聚类算法
ClusteringOverview of methods首先我们说几个典型应用,了解为什么需要聚类算法,然后介绍下聚类的集中方法,具体的细节在后面的小节中详细说。 但是在实际应用中,聚类问题并没有图中这么简单,往往有大量的数据,且数据时高维的(10 or 10,000dimensions)处理起来比较复杂,而且在高维空间中点间的距离看起来都是近似的。 Some Clustering App
2015-10-25 16:14:26 9234 3
原创 Mining Massive Datasets 课程笔记(四)降维
Dimensionality Reduction 降维若原特征空间是D维的,现希望降至d维的。降维的概念相信大家都已经有了解了,就不介绍了,首先从为什么需要降维理解其必要性,然后讲解具体实现。 在这里先简单介绍下矩阵的秩矩阵的秩把矩阵看成线性映射那么秩就是象空间的的维数。通俗一点说,如果把矩阵看成一个个行向量或者列向量,秩就是这些行向量或者列向量的秩,也就是极大无关组中所含向量的个数。
2015-10-23 16:32:20 2366
原创 Mining Massive Datasets课程笔记(四)推荐系统
Recommender System 推荐系统由于网络电商的兴起,商品由实体中有限的个数到互联网时代无数商品可以购买,使得长尾理论被广泛关注。这些都是推荐系统兴起的条件。推荐有多种类型,我们关注的是对个体用户的定制推荐。Formal ModelUtility Matrix 上图是一个Utility Matrix的例子,A-D表示用户,矩阵中是用户对不同电影的评分。推荐系统的目标就是推测出空白处
2015-10-17 15:58:17 2118
原创 Mining Massive Datasets课程笔记(三)
Communities in Social networksCommunity Detection in GraphsThe Affiliation Graph Model(AGM)Plan: 1. 由给定的模型生成网络 2. 对给定的网络找到“best”modelModel of network Goal:Define a model that can generate networks
2015-10-12 00:23:42 4304 1
原创 Mining Massive Datasets课程笔记(二)
Finding Similar Sets在数据挖掘中有一个很基础的问题就是寻找相似项。比如“查找具有相似爱好的用户“等应用的本质就是查找相似项。 这一节介绍的就是如何寻找相似项。采用的相似度衡量概念为“Jaccard 相似度”,具体的意思在后文介绍,其主要思想就是两个集合的交集所占的比例越大则认为两者越相似。 对于数据量非常庞大的情况来讲逐一计算相似度肯定是不现实的,联系hash表的(可以快速寻
2015-10-01 01:02:00 1859
基于温度传感器的显示测温软件
2013-12-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人