数据挖据
文章平均质量分 77
infovisthinker
这个作者很懒,什么都没留下…
展开
-
CS224W笔记-第四课
课程4——原创 2020-04-08 09:33:08 · 1082 阅读 · 3 评论 -
CS224W笔记-第三课
课程3——图内组件结构原创 2020-03-06 23:15:49 · 1993 阅读 · 2 评论 -
CS224W笔记-作业0
整个CS224W有4次作业——0,1,2,3,按助教的说法,除了作业0,其他的3次作业的量都比较大。按正常的节奏,需要尽早开始做。课程还有一个Project,不过我这里就不会做了。我自己做的作业的代码会放到github里面,在全部完成后,设置成Public,放出来。不过目前先不展示了。作业0:Snap的安装和熟悉本次作业的核心是安装Snap。这是Jure团队在Stanford开发的一个用于图...原创 2020-02-27 22:43:06 · 1302 阅读 · 0 评论 -
CS224W笔记-第二课
第二课:网络的特性和随机图模型这是第一次正式的课,主要讲以下几个内容:如何测量或衡量网络/图,即主要的metrics;使用Jure对MSN网络的研究,计算这几个指标;为了比较MSN的网络的特性是否是独特的,构建了随机网络生成模型;比较MSN网络和随机网络;介绍了另外一种网络模型_Small World网络;最后讲解了另外一种网络模型: Kronecker随机网络这节课的内容很多...原创 2020-02-25 22:45:13 · 1523 阅读 · 3 评论 -
Windows7上安装TensorFlow的GPU版本后记
上一篇写了之前在我的Windows7上安装TensorFlow GPU版的一路坑坑洼洼,本以为已经解决了。但实际上在过年的几天内,又一次出现了问题。经过了反复的尝试,到今天为止终于稳定下来,特此记录一下。但是具体原因还是不十分清楚。上一篇写到用CUDA自带的安装包里的390.60版显卡驱动程序完成安装后,终于可以运行TensorFlow的例子在GPU上了,很是开心了一阵子。但就在带回家过年的几原创 2017-02-14 11:20:39 · 5503 阅读 · 14 评论 -
如何在RedHat里面编译R源码并安装
为了使用SparkR,决定要在Spark所在的Linux上装上R,结果血泪篇了。随着spark 1.4之后SparkR的流行,估计会有不少人需要这个东西。主要原因是公司内部的虚机,无法连外网,所以网上很多的直接rpm或者yum的方法都没用,需要自己编译R的源码,中间因为Redhat Enterprise没有给装好gcc,又为了装gcc折腾了半天,终于现在通过了configure,可以m原创 2016-01-06 22:17:06 · 791 阅读 · 0 评论 -
初学者入门-用Spark ML来处理超大数据
还是转译KDNuggets的文章。微软的Dmitry Petrov介绍的如何用Spark ML来处理超过内存大小的数据。原创 2015-12-23 11:42:22 · 4580 阅读 · 0 评论 -
一个诡异的spark-submit运行问题(已解决)
今天在测试刚刚部署好的spark集群的时候,碰到了一个诡异的spark-submit问题。搜了一圈也没发现,结果意外的找到了原因,真是欲哭无泪!问题:写好了一个计算Pi的程序,编译打包成 ComputePi.jar包,放到spark集群的master上,然后用命令spark-submit --master spark://master1:7077 --class com.ibm.j原创 2015-12-22 21:32:09 · 11183 阅读 · 6 评论 -
hadoop集群的搭建脚本及构思(N):一个简化的Hadoop+Spark on Yarn集群快速搭建
为了一篇正在准备的用spark做文本分析的博文,快速搭建了一个4节点的Spark on Yarn+Hadoop的集群。算是给这个系列的一点简单小结。因为资源的限制,HA的hadoop的集群搭建还要在等一段时间才能来继续了。由于工作内容变动,有一段时间没有搞环境搭建,这次居然手生了很多,所这里也快速的记录一下自己的步骤来当做文档。-- 机器配置4台虚机,一个master,3个slav原创 2015-12-22 21:07:54 · 1546 阅读 · 0 评论 -
用Scala推荐的Eclipse作为IDE开发Spark 1.5.1的程序
为了配合另外一篇文章,自己折腾了一下把在Spark shell里写的程序弄到IDE里面开发。搜了一遍,搞通了,自己写一下笔记,已备后查。Scala自己推荐的IDE有两个,一个是iDEA,另外一个是Eclipse。iDEA要付费,所以没工夫去买,用Eclipse很久了,就直接上手来搞。基本的东西就不细讲了,百度一下Spark+Scala就会出现很多。这里只留我自己环境搭建的基本的信息。大原创 2015-11-24 14:05:22 · 2539 阅读 · 0 评论 -
数据分析工具之战,R 和 Python的PK
上一个项目中需要给客户推荐数据分析工具,目标地位在SPSS、SAS、R和Python这四个工具上。在百度上过了一圈,看不到特别好的帖子。而自己只对SPSS和手写code比较熟,SAS没有接触过,对R和Python的使用和理解和都比较肤浅,所以最后写的对比自己都觉得不是很满意。今天在KDNuggets上看到两篇对比R和Python的文章,老美写的挺好,这里总结一下,分享出来。原文链接在文翻译 2015-11-10 12:56:10 · 2447 阅读 · 0 评论 -
hadoop集群的搭建脚本及构思(二):程序文件的管理思路
安装了几次hadoop系统后终于开始有了一点感觉,对程序文件的管理有了一点想法,这里先记着。等搞完了再仔细地总结一下。网络上的基本教程都是从0开始,建用户,建目录,拷贝压缩包,然后再解压,再修改配置文件,再修改系统配置文件;然后从一个机器(基本是master node)同步到其他的nodes上去,再统一启动。整个过程中,其实除了很少的一些配置不一样(比如zookeeper里面的id文件原创 2015-07-08 17:17:57 · 1130 阅读 · 0 评论 -
hadoop集群的搭建脚本及构思(一):用户和用户权限
打算搞一个复杂的Hadoop 2.6集群,加上Zookeeper来搞HA,再部署上HBase,Hive等一系列的东西。发现机器多了,从建虚机到配置都不能再靠命令行一条一条的敲,需要搞脚本出来自动/半自动执行。其实想想,这个部署的过程就是一个类似PaaS的任务。完全可以搞成可视化的部署工具。当年搞十八摸的中间件的部署就是有这样的工具。可以自己先定义所需要的系统拓扑,比如一个WAS ND的集群,要原创 2015-06-16 12:03:38 · 2715 阅读 · 0 评论 -
一个有点意思的问题,如何快速收敛超大的KMeans
被一个牛人问道了这个问题:超亿个节点,进行KMeans的聚类,每次迭代都要进行K×亿的运算,如何能让这个迭代快速的收敛?当场晕倒,从来没有考虑过这些问题,基础的数据挖据算法不考虑超大级别的运算问题。回来想了想,再看看Mahout的KMeans的实现方法,觉得可以这么解决.1. 第一次迭代的时候,正常进行,选取K个初始点,然后计算所有节点到这些K的距离,再分到不同原创 2015-04-09 13:46:52 · 2710 阅读 · 1 评论