数据挖掘
文章平均质量分 63
leeshuheng
UNIX, GNU/Linux C/Cplusplus R programmer 数据挖掘 机器学习
展开
-
POI推荐算法
POI推荐算法这里介绍的算法是基于地点相似度的POI推荐。该算法非常简单,在某些数据场景中十分有效。基本的想法是: 将POI名称作为标签处理 一群用户对某个地点感兴趣,那么这群用户中的一部分人感兴趣的其他地点可能与该地点相似;算法流程:1)输入地点a, 用户集合X,地点集合Y、用户和地点关系集合2)找到对a感兴趣的用户子集U; 我们原创 2015-05-08 09:55:46 · 15118 阅读 · 1 评论 -
使用pagerank计算商业服务网络中节点的重要性
现实世界中有很多商业服务,在服务中消费者和服务提供者构成了一个网络(图)。大部分的服务网络都是无尺度网络,节点的degree是幂律分布这样的无尺度分布。也就是说,很少部分服务商向大量的消费者提供了大部分服务。在这样的无尺度网络中,很明显这少部分服务商是很重要的。但他们的重要性需要一种度量。 而且,随着共享经济的发展,线下线上的结合,有一些特定的服务网络在特定情况下原创 2016-04-13 13:18:15 · 2507 阅读 · 0 评论 -
R 与 LaTeX
R 与 LaTeX R 是一种编程语言,广泛的用于数据挖掘和统计分析中。她有很多实用的特性,比如她对LaTeX的支持。通过一些技术手段,R语言可以生成LaTeX脚本,并把计算结果和可视化图形信息包括在LaTeX脚本中。 LaTeX 是一个排版系统,在数学和其他科学领域有着广泛的应用,她最初是由Leslie Lamport开发。LaTeX把TeX作为格式化原创 2016-05-05 09:02:30 · 10291 阅读 · 0 评论 -
使用R语言进行图像分类
使用R语言进行图像分类本文使用R语言,应用SVM(高斯核)[3]算法对JPEG图片进行二类分。SVM使用e1071包, 图像处理用imager包[1]。数据使用的是Caltech 101中的Faces和BACKGROUND_Google两类数据[2]。文章最后包含了实验的源代码。这篇blog还有个pdf版本,可在 http://download.csdn.net/m原创 2016-09-09 08:18:42 · 10195 阅读 · 1 评论 -
拓扑分析用于空间聚类
拓扑分析用于空间聚类在工作中我会遇到这样的问题:有一个城市中某种实体的地理位置信息,需要根据这些实体的不同分布密度,来对这个城市进行区域划分。那我们首先就要根据这些实体的位置进行聚类,以便得到不同密度分布的实体集合,进一步得到这个城市的区域划分。我使用R语言中的TDA package对位置信息进行聚类。实验的数据可以在这里下载:http://down原创 2016-11-03 10:55:52 · 3952 阅读 · 0 评论 -
R语言中文情感分析包:cnSentimentR
该包使用jiebaR分词, svm[e1071]进行分类;包括三个函数:cnsr.prepare,cnsr.train,cnsr.predict目前还在开发中,功能不完整.请见: https://github.com/leeshuheng/cnSentimentR原创 2017-02-07 17:22:24 · 8590 阅读 · 1 评论 -
一个玩具—自制人脸识别
自己动手OpenCV提供了一些人脸识别的工具, 比如FaceRecognizer。但自制一个人脸识别器是件挺好玩的事情,我用kNN实现了一个。原创 2017-03-27 09:08:16 · 5298 阅读 · 0 评论 -
R语言中使用tensorflow
1 TensorFlowTensorFlow是一个使用数据流图(data flow graphs)进行数值计算的的开源软件库。图的节点代表数学计算,图的边代表与之对应的多维数组(tensor)。这个思路正好与我设计的一个系统相反。tf灵活的架构使你用单一API就能在台式机、服务器或移动设备上的多个CPU/GPU上进行计算。虽然tf最初是由Google的机器智能研究机构 Googl翻译 2017-05-05 16:34:58 · 10645 阅读 · 0 评论