2020年03月_da_kao_la

原创 Hive知识点整理

Hive知识点整理简介Hive解决的问题是海量结构化日志的数据处理基于Hadoop的一个数据仓库工具，将结构化数据映射为一张表，提供HQL的类SQL查询功能Hive的数据存储在HDFS上Hive计算逻辑的底层默认实现是MapReduceHive由Yarn调度Hive相当于Hadoop的客户端，因此是非分布式的优缺点类SQL语法，学习成本低延迟较高，常用于实时性要求不高的场...

2020-03-31 13:43:39 293

原创 LeetCode Weekly Contest 182

5368. 找出数组中的幸运数在整数数组中，如果一个整数的出现频次和它的数值大小相等，我们就称这个整数为「幸运数」。给你一个整数数组 arr，请你从中找出并返回一个幸运数。如果数组中存在多个幸运数，只需返回最大的那个。如果数组中不含幸运数，则返回 -1 。示例 1：输入：arr = [2,2,3,4]输出：2解释：数组中唯一的幸运数是 2 ，因为数值 2 的出现频次也是 2 。...

2020-03-30 10:54:21 263

原创 HDU2089. 不要62（数位dp）

不要62Problem Description杭州人称那些傻乎乎粘嗒嗒的人为62（音：laoer）。杭州交通管理局经常会扩充一些的士车牌照，新近出来一个好消息，以后上牌照，不再含有不吉利的数字了，这样一来，就可以消除个别的士司机和乘客的心理障碍，更安全地服务大众。不吉利的数字为所有含有4或62的号码。例如：62315 73418 88914都属于不吉利号码。但是，61152虽然含有6和...

2020-03-29 22:31:47 450

原创 LeetCode 403. 青蛙过河（动态规划）

青蛙过河一只青蛙想要过河。假定河流被等分为 x 个单元格，并且在每一个单元格内都有可能放有一石子（也有可能没有）。青蛙可以跳上石头，但是不可以跳入水中。给定石子的位置列表（用单元格序号升序表示），请判定青蛙能否成功过河（即能否在最后一步跳至最后一个石子上）。开始时，青蛙默认已站在第一个石子上，并可以假定它第一步只能跳跃一个单位（即只能从单元格1跳至单元格2）。如果青蛙上一步跳跃了 ...

2020-03-29 11:55:34 2049 2

原创源码安装pytorch_scatter, pytorch_cluster

动机笔者使用清华镜像站作为pip源，直接pip install torch_scatter和pip install torch_cluster安装不成功，考虑使用源码安装。下面以安装pytorch_cluster-1.4.5为例说明源码安装过程，pytorch_scatter的源码安装方式类似。注意，安装pytorch_scatter, pytorch_cluster需要预先安装对应版本的py...

2020-03-24 17:45:00 2940

原创源码编译安装python2.7替换Hadoop集群的python2.6

背景使用Hadoop streaming + python开发，集群节点的python是python2.6，语法与python2.7略有不同。而我本地和开发机的python版本都是python2.7，考虑到Hadoop streaming支持分发压缩文件到节点，因此打算自己制作一个python2.7的压缩包，上传到HDFS，之后写Hadoop streaming程序都可以使用这个python2....

2020-03-23 12:05:59 286

原创 Yarn知识点整理

Yarn知识点整理Yarn是一个资源调度平台，负责为计算框架提供服务器运算资源，相当于一个分布式操作系统平台，而MapReduce相当于应用程序。Yarn在Hadoop2之后引入MapReduce.基本架构ResourceManager:处理客户端请求监控NodeManager状态启动和监控ApplicationManager资源的分配与调度NodeManager:管理...

2020-03-22 21:03:45 258

原创 LeetCode Weekly Contest 181

5364. 按既定顺序创建目标数组给你两个整数数组 nums 和 index。你需要按照以下规则创建目标数组：目标数组 target 最初为空。按从左到右的顺序依次读取 nums[i] 和 index[i]，在 target 数组中的下标 index[i] 处插入值 nums[i] 。重复上一步，直到在 nums 和 index 中都没有要读取的元素。请你返回目标数组。题目保证数字插入...

2020-03-22 16:37:04 245

原创 MapReduce知识点整理

MapReduce知识点整理基于版本：Hadoop 2.7.2序列化Q: 为什么Hadoop不使用Java自带的序列化?A: Java自带的序列化框架过于重量级（附带很多额外信息：校验信息、Header、继承体系等），网络传输效率低，所以Hadoop自己实现了序列化机制（Writable接口）.自定义可序列化类实现Writable接口反序列化用到反射，需要调用无参数构造方法，因此自...

2020-03-17 15:31:14 360

原创 LeetCode Weekly Contest 180

5356. 矩阵中的幸运数给你一个 m * n 的矩阵，矩阵中的数字各不相同。请你按任意顺序返回矩阵中的所有幸运数。幸运数是指矩阵中满足同时下列两个条件的元素：在同一行的所有元素中最小在同一列的所有元素中最大示例 1：输入：matrix = [[3,7,8],[9,11,13],[15,16,17]]输出：[15]解释：15 是唯一的幸运数，因为它是其所在行中的最小值，也是...

2020-03-15 17:02:25 126

原创 HDFS知识点整理

HDFS知识点整理优缺点优点高容错性：多副本，自动恢复处理的数据规模大：可处理PB级别的文件，可支持百万级数量的文件缺点不适合低延迟的数据访问无法高效存储小文件文件元数据过多，耗尽NameNode内存小文件寻址超过文件读取时间，违背HDFS设计初衷不支持并发文件写入仅支持数据追加，不支持文件随机写组成架构NameNode文件系统的管理者：管理H...

2020-03-11 17:55:25 330

原创论文解析：Neural Graph Collaborative Filtering

论文解析：Neural Graph Collaborative Filtering作者：Xiang Wang, Xiangnan He, Meng Wang, Fuli Feng, Tat-Seng Chua（新加坡国立大学）会议：SIGIR 2019方法和Graph Convolutional Matrix Completion一样，Neural Graph Collaborativ...

2020-03-11 12:26:31 1115

原创论文解析：Graph Convolutional Matrix Completion

论文解析：Graph Convolutional Matrix Completion作者：Rianne van den Berg, Thomas N. Kipf, Max Welling（也是发表GCN的团队）会议：KDD 2018方法图变分自编码器(GAE)的应用（GAE的博客），算法核心就是下面的图将推荐系统的user-item交互建模为二分图，user和item分别是二分图的...

2020-03-11 11:11:30 2346

原创论文解析：Variational Graph Auto-Encoders

论文：Variational Graph Auto-Encoders阅读笔记作者：Thomas N. Kipf, Max Welling, 和GCN的作者是一样的会议：Bayesian Deep Learning Workshop (NIPS 2016), NIPS的一个workshop，不是长文论文链接：Variational Graph Auto-Encoders代码链接：tkipf...

2020-03-09 18:04:26 2650

原创 LeetCode Weekly Contest 179

5352. 生成每种字符都是奇数个的字符串题目难度Easy给你一个整数 n，请你返回一个含 n 个字符的字符串，其中每种字符在该字符串中都恰好出现奇数次。返回的字符串必须只含小写英文字母。如果存在多个满足题目要求的字符串，则返回其中任意一个即可。示例 1：输入：n = 4输出：“pppz”解释：“pppz” 是一个满足题目要求的字符串，因为 ‘p’ 出现 3 次，且 ‘z’ 出现...

2020-03-08 12:55:05 183

原创 [Linux] paste命令合并两个行数相同的文件

paste命令可以用于合并两个行数相同的文件到标准输出，两个文件的每行分别对齐，默认用\t分隔，使用-d参数可以指定分隔符。Example 1:cat a.txt123234456cat b.txta ba cb dpaste a.txt b.txt > c.txt && cat c.txt123 a b234 a c456 b dpaste...

2020-03-05 09:21:36 1023

原创 Python3 sort自定义比较函数

许多语言（例如C++/Java）的sort函数/方法都支持自定义比较类/函数，Python2的list的sort方法也支持可选参数cmp，支持用户自定义比较函数，但是Python3中删除了可选参数cmp，同时也删除了内置函数cmp，只提供了可选参数key用于自定义排序。但是，有些排序需求用cmp实现较为简单直接，不容易改写成key实现，为此，Python3的functools包提供了cmp_to_...

2020-03-04 11:36:04 5001

原创多分类中accuary与micro F1-score的恒等性

发现在多分类问题（这里『多分类』是相对于『二分类』而言的，指的是类别数超过2的分类问题）中，用sklearn的metrics.accuracy_score(y_true, y_pred)和float(metrics.f1_score(y_true, y_pred, average="micro"))计算出来的数值永远是一样的，在stackoverflow中搜索这个问题Is F1 micro the...

2020-03-02 17:54:25 5251 4

原创使用pip freeze导出Python项目依赖环境

导出导出依赖到文件requirements.txtpip freeze >requirements.txtrequirements.txt中的内容示例：docutils==0.11Jinja2==2.7.2MarkupSafe==0.19Pygments==1.6Sphinx==1.2.2导入从文件requirements.txt中安装依赖pip install -...

2020-03-02 16:19:26 2018

原创 LeetCode Weekly Contest 178

5344. 有多少小于当前数字的数字给你一个数组 nums，对于其中每个元素 nums[i]，请你统计数组中比它小的所有数字的数目。换而言之，对于每个 nums[i] 你必须计算出有效的 j 的数量，其中 j 满足 j != i 且 nums[j] < nums[i] 。以数组形式返回答案。示例 1：输入：nums = [8,1,2,2,3]输出：[4,0,1,1,3]解释：...

2020-03-01 16:07:53 262

da_kao_la的博客