infovisthinker-CSDN博客

原创《图深度学习》读后感

上一篇文章挖的坑，现在填。由于《图深度学习》这本是目前4本中文图神经网络里最学术的一本，看完还是要花一段时间的，所以写地慢了很多。之前为了做4本书的比较，粗粗地浏览了一遍这本书，总体感受是这是一本可以当作教材的图神经网络的书。页数比其他3本都多，而且内容比较得全面。由于2位作者都是中国人，而2位译者又是作者的学生和师妹/弟，所以总体的文字也比较流畅，没有出现之前看到的不少英译本的书籍所出现的文字不通顺的问题。仔细地读了第二遍后，感觉这书比之前的几本书要好不少。非常感谢作者和译者用心地写，用心地翻译。

2021-07-10 13:34:00 624

原创 4本图神经网络中文书籍的比较

《深入浅出图神经网络》、《图神经网络基础于前沿》和《图神经网络导论》三本书的比较

2021-05-26 10:27:50 7630 1

原创《图神经网络导论》读后感

《图神经网络导论》读后感4月初刚刚读完《图神经网络——基础与前沿》，就看到有人给我的书评留言，说刘知远老师的《图神经网络导论》(下文简称为《导论》)马上要出版。果然在五一假期前就看到这本书已经上市了，立刻就入手了一本，乘着五一假期花了两天给读完了。这里记录下还新鲜的读后感。就目前已经到手看完的中文图神经网络的书来看，这本书是从典型的学术圈的视角来讲解GNN的，和之前的《深入浅出图神经网络》比较侧重应用以及《图神经网络——基础与前沿》比较侧重最新的介绍的视角有重合也有区别。后面会再开一贴专门来比较这三本仅

2021-05-05 13:29:03 1172

原创《图神经网络-基础与前沿》读后感

《图神经网络-基础与前沿》读后感想延续之前工作和兴趣的风格，当看到有新的一本和图神经网络相关的中文书出现后，立刻就买了一本拿来学习一下。4月初到手这本《图神经网络-基础与前沿》，先粗粗地浏览了一遍，有些失望，觉得名不副实。不过在仔细地阅读之后，个人感觉其中还是有一些不错的内容。现在读完了，留下一些读后感，也算一个书评吧。...

2021-04-22 23:09:20 998

原创 CS224W笔记-第十一课

CS224W笔记-第十一课：PageRank

2021-01-01 23:46:47 534 4

原创 CS224W笔记-第十课

CS224W笔记-第九课：深度图生成模型

2020-10-29 11:21:29 482

原创 CS224W笔记-第八课

CS224W笔记-第八课：图神经网络第八课开始，Jure又回归了。本节课的内容是图神经网络(Graph Neural Network, GNN)，这也是目前非常新和非常热的一个内容。图上深度神经网络的基本概念

2020-09-20 19:25:43 489

原创 CS224W笔记-第七课

CS224W笔记-第七课：图表征学习

2020-09-11 18:38:58 781

原创 CS224W笔记-第六课

CS224W笔记-第六课

2020-09-05 23:26:03 475

原创 CS224W笔记-第十六课

第16课——网络的演化由于项目的关系，提前看一下网络演化之一课。为项目提供一些思路。网络的演进是一个非常常见的场景，随着时间的变化，一个网络的节点和边都会有增有减，相应的网络结构随之改变。同样的，网络节点和边的特征也会随着时间而改变。不过本节课更关注的是网络结构层面的改变，而非节点或者边的特征的改变。网络结构改变的情况使用网络可视化的方法可以比较容易地被观察者定性地发现，但是如何定量地研究网...

2020-07-22 10:21:40 566

原创《深度学习推荐系统》读后感想

《深度学习推荐系统》读后感想昨天飞机上读完了这本书的最后一章，有点感慨。在年初终于得以进入真正的AI核心圈后，能连续看到2本质量相当不错的中文深度学习的系统类书，给现在的工作和实战提供给了非常好的思路，实在是幸运。特别是这边《深度学习推荐系统》，是近年看到的难得的和深度学习相关的好书，故此总结一下第一遍读完的感受，分享记录一下。同时也是给下一遍阅读的一个笔记起点，...

2020-07-20 23:31:36 1130

原创《深入浅出图神经网络》读后感

年初开始，有幸参与了和图神经网络相关的工作。对于我这个门外汉来说，最好的学习方法就是找本基础入门的书从头学。但是在搜了一圈后才发现，居然只找到了一本讲GNN的中文书，就是这本《深入浅出图神经网络》。不得不感慨GNN这个东西还真是够新的。从4月份入手一本，开始从头读起，前前后后花了2个多月终于把核心内容都学习完成。当然中间伴随着工作项目的开展，也附带着看了相关的很多内容，所以开始读的不懂的东西，后来也能顺利地理解。到6月中旬，把最后一章快速浏览过，决定还是写点读后感，留给现在一些想学习GNN的人做参考。作

2020-06-14 23:54:14 575

原创使用DGL实现基于闲鱼图进行边分类算法

为了把XY算法细化到可以实现的程度，这里把具体的公式都记录下来。L−1L-1L−1层：hel−1∈R(1,Del−1)h_{e}^{l-1} \isin \Reals^{(1, D_{e}^{l-1})}hel−1∈R(1,Del−1)hul−1∈R(1,Dul−1)h_{u}^{l-1} \isin \Reals^{(1, D_{u}^{l-1})}hul−1∈R(1,Dul−1...

2020-05-29 18:22:32 1934 2

原创 CS224W笔记-第五课

CS224W笔记-第五课：谱聚类

2020-05-16 22:21:58 676 1

原创 CS224W笔记-第四课

课程4——

2020-04-08 09:33:08 1243 3

原创 CS224W笔记-第三课

课程3——图内组件结构

2020-03-06 23:15:49 2585 3

原创 CS224W笔记-作业0

整个CS224W有4次作业——0，1，2，3，按助教的说法，除了作业0，其他的3次作业的量都比较大。按正常的节奏，需要尽早开始做。课程还有一个Project，不过我这里就不会做了。我自己做的作业的代码会放到github里面，在全部完成后，设置成Public，放出来。不过目前先不展示了。作业0：Snap的安装和熟悉本次作业的核心是安装Snap。这是Jure团队在Stanford开发的一个用于图...

2020-02-27 22:43:06 1436

原创 CS224W笔记-第二课

第二课:网络的特性和随机图模型这是第一次正式的课,主要讲以下几个内容:如何测量或衡量网络/图,即主要的metrics;使用Jure对MSN网络的研究,计算这几个指标;为了比较MSN的网络的特性是否是独特的,构建了随机网络生成模型;比较MSN网络和随机网络;介绍了另外一种网络模型_Small World网络;最后讲解了另外一种网络模型: Kronecker随机网络这节课的内容很多...

2020-02-25 22:45:13 1708 3

原创 CS224W笔记-第一课

第一课：课程介绍和基本概念CS224的课程题目在2019学年改成了《图的机器学习》，老师也换了。第一节课对整个课程进行了介绍。主要内容包括3个部分：什么是图（Graph）及研究的内容。课程的安排和后勤。核心概念和名词属于什么是图及研究的内容2019年的课程内容做了比较大的修改，从原来的主要是做图分析，改成偏重于进行基于图的预测，所以课程名称也改为《图机器学习》。课程主要的内容是研...

2020-02-19 20:56:10 995

原创 Windows7上安装TensorFlow的GPU版本后记

上一篇写了之前在我的Windows7上安装TensorFlow GPU版的一路坑坑洼洼，本以为已经解决了。但实际上在过年的几天内，又一次出现了问题。经过了反复的尝试，到今天为止终于稳定下来，特此记录一下。但是具体原因还是不十分清楚。上一篇写到用CUDA自带的安装包里的390.60版显卡驱动程序完成安装后，终于可以运行TensorFlow的例子在GPU上了，很是开心了一阵子。但就在带回家过年的几

2017-02-14 11:20:39 5619 9

原创再写博文，回顾在Windows7上安装TensorFlow-GPU的一路坑

离完成上一篇文章有近1年了。2016年发生了太多的事情，从而没能坚持哪怕是每月一篇这样的频率。终于在2017年的1月份抽出几天搞出了一些东西。一路坑洼，赶紧记录下来。2016年初就开始看深度学习的东西，主攻TensorFlow。但是一路项目再加上换了公司，每次都是搞两天就停一阵子，然后再拾起来重头搞两天，再被打断。而且换了公司后没有了随意能调用的计算资源，CPU版的TensorFlow直到11

2017-01-24 13:53:14 16507 3

原创自己的CSDN博文阅读量简单分析（至2016年1月）

早就计划了这个题目。写博有近一年了，零零散散的写了一共15篇。期间也一直关注自己的文章被多少人看了一眼，真看还是假看就没法知道了，阅读量也终于达到了1000。发现还是有些有趣的事情可以简单分析一下，也顺便练练手。

2016-02-03 14:23:17 5290 1

原创如何在RedHat里面编译R源码并安装

为了使用SparkR，决定要在Spark所在的Linux上装上R，结果血泪篇了。随着spark 1.4之后SparkR的流行，估计会有不少人需要这个东西。主要原因是公司内部的虚机，无法连外网，所以网上很多的直接rpm或者yum的方法都没用，需要自己编译R的源码，中间因为Redhat Enterprise没有给装好gcc，又为了装gcc折腾了半天，终于现在通过了configure，可以m

2016-01-06 22:17:06 868

原创初学者入门-用Spark ML来处理超大数据

还是转译KDNuggets的文章。微软的Dmitry Petrov介绍的如何用Spark ML来处理超过内存大小的数据。

2015-12-23 11:42:22 4686

原创一个诡异的spark-submit运行问题（已解决）

今天在测试刚刚部署好的spark集群的时候，碰到了一个诡异的spark-submit问题。搜了一圈也没发现，结果意外的找到了原因，真是欲哭无泪！问题：写好了一个计算Pi的程序，编译打包成 ComputePi.jar包，放到spark集群的master上，然后用命令spark-submit --master spark://master1:7077 --class com.ibm.j

2015-12-22 21:32:09 11529 6

原创 hadoop集群的搭建脚本及构思（N）：一个简化的Hadoop+Spark on Yarn集群快速搭建

为了一篇正在准备的用spark做文本分析的博文，快速搭建了一个4节点的Spark on Yarn+Hadoop的集群。算是给这个系列的一点简单小结。因为资源的限制，HA的hadoop的集群搭建还要在等一段时间才能来继续了。由于工作内容变动，有一段时间没有搞环境搭建，这次居然手生了很多，所这里也快速的记录一下自己的步骤来当做文档。-- 机器配置4台虚机，一个master，3个slav

2015-12-22 21:07:54 1620

原创班门弄斧的写统计-置信区间的自我总结

为了进入数据科学家的行列，大把年纪又重新来看统计的东西。最近在面试和实际工作中发现，经常要去说置信区间的问题。这个统计学里面的一个很常见但是非常基础的概念，不少人（甚至我面的一个Cornell的统计硕士）都完全理解错误。所以这里自己看了不少东西，总结出来留下爪印。遵循CSDN上牛人的建议，先从Wiki入手，然后去看经典的书和论文，以及一堆搜出来的东西。非统计出身，所以这里就不列一堆数学公式了，

2015-12-14 11:22:10 2122 1

原创用Scala推荐的Eclipse作为IDE开发Spark 1.5.1的程序

为了配合另外一篇文章，自己折腾了一下把在Spark shell里写的程序弄到IDE里面开发。搜了一遍，搞通了，自己写一下笔记，已备后查。Scala自己推荐的IDE有两个，一个是iDEA，另外一个是Eclipse。iDEA要付费，所以没工夫去买，用Eclipse很久了，就直接上手来搞。基本的东西就不细讲了，百度一下Spark+Scala就会出现很多。这里只留我自己环境搭建的基本的信息。大

2015-11-24 14:05:22 2625

转载 RedHat 6上安装运行7zip

为了要配合另外一个博文里介绍的用Spark来处理大文件，去把arXive上的36G的文件down了下来。结果咣当居然是一堆7z文件。实在不想先弄到Windows里面解压，然后再传到Linux上去，就琢磨着Linux怎么能装7zip。搜了一下，发现很简单。就在两个机器上都装了。一个机器是Ubuntu 14，能连接公网。所以安装很简单，直接用命令 sudo apt-get install p7

2015-11-20 12:30:01 3193

翻译 9个数据科学家必须的技能

为上一篇文章找了一圈SPSS，SAS和开源的R，Python之类的对比，一直没发现。结果找到了这么一个文章，比较的有趣。译过来看看。需要注意的是，这个是一个商业机构写的针对北美市场的总结，所以难免偏颇，仅供参考。原文链接在最后。Burtch Works是一个猎头公司。他们总结了对北美对数据科学家的需求列表，提供了常见的九大雇主要求的技能。专业技能：分析1. 教育背景 -

2015-11-12 12:32:20 2773

翻译数据分析工具之战，R 和 Python的PK

上一个项目中需要给客户推荐数据分析工具，目标地位在SPSS、SAS、R和Python这四个工具上。在百度上过了一圈，看不到特别好的帖子。而自己只对SPSS和手写code比较熟，SAS没有接触过，对R和Python的使用和理解和都比较肤浅，所以最后写的对比自己都觉得不是很满意。今天在KDNuggets上看到两篇对比R和Python的文章，老美写的挺好，这里总结一下，分享出来。原文链接在文

2015-11-10 12:56:10 2597

原创 hadoop集群的搭建脚本及构思（二）：程序文件的管理思路

安装了几次hadoop系统后终于开始有了一点感觉，对程序文件的管理有了一点想法，这里先记着。等搞完了再仔细地总结一下。网络上的基本教程都是从0开始，建用户，建目录，拷贝压缩包，然后再解压，再修改配置文件，再修改系统配置文件；然后从一个机器（基本是master node)同步到其他的nodes上去，再统一启动。整个过程中，其实除了很少的一些配置不一样（比如zookeeper里面的id文件

2015-07-08 17:17:57 1219

原创 hadoop集群的搭建脚本及构思（一）：用户和用户权限

打算搞一个复杂的Hadoop 2.6集群，加上Zookeeper来搞HA，再部署上HBase，Hive等一系列的东西。发现机器多了，从建虚机到配置都不能再靠命令行一条一条的敲，需要搞脚本出来自动/半自动执行。其实想想，这个部署的过程就是一个类似PaaS的任务。完全可以搞成可视化的部署工具。当年搞十八摸的中间件的部署就是有这样的工具。可以自己先定义所需要的系统拓扑，比如一个WAS ND的集群，要

2015-06-16 12:03:38 2787

原创 Hadoop 2.6 日志文件和MapReduce的log文件研究心得

学习演练Hadoop 2.6有一段日子了。现在才大致搞清楚了系统里面各个log的位置和功能，在这里总结一下。网上的资料并不丰富，甚至Google出来的结果也不是很满意，或许这个是太简单了，牛人都不屑来写。也可能是各个公司藏着掖着的东西。Hadoop 2.6包含两个大部分：DFS和Yarn，而Yarn里面又包含在Resource Manager的JVM中运行的部分和在Node Manag

2015-04-29 18:30:20 14251 3

原创两个Mapper初始化输出类错误的心得：Unable to initialize any output collector

今天在跑两个关系运算的代码，结果接连两次都出现了同样的一个错误：Error: java.io.IOException: Unable to initialize any output collector at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:412) at org.apache.h

2015-04-20 17:17:13 9271

原创一个有点意思的问题，如何快速收敛超大的KMeans

被一个牛人问道了这个问题：超亿个节点，进行KMeans的聚类，每次迭代都要进行K×亿的运算，如何能让这个迭代快速的收敛？当场晕倒，从来没有考虑过这些问题，基础的数据挖据算法不考虑超大级别的运算问题。回来想了想，再看看Mahout的KMeans的实现方法，觉得可以这么解决.1. 第一次迭代的时候，正常进行，选取K个初始点，然后计算所有节点到这些K的距离，再分到不同

2015-04-09 13:46:52 2803

原创开博留笔

第一次写博，就是记录一下过去2个星期里安装配置hadoop 2.6.0的一把辛酸血泪史。同时也是深入实践这个大数据基础工具的好例子。到今天，还有container-lauch报错的问题，google的2天，依然没有解决。先冷一冷。

2015-03-25 08:00:01 627

infovisthinker的专栏