机器学习/深度学习
文章平均质量分 65
明日韭菜
qq: 1463675384
展开
-
图自监督表征
图自监督原创 2023-01-16 16:28:55 · 470 阅读 · 0 评论 -
pytorch开发问题汇总
pytorch开发中经常遇到的问题原创 2022-10-19 14:54:20 · 668 阅读 · 0 评论 -
常用相似性(距离)度量方法概述
1 使用背景在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关性分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)、图计算等等。在做很多研究问题2 距离度量距离度量(Distance)用于衡量个体在空间上存在的距离,距离越远说明个体间的差异越大。2.1. 曼哈顿距离(Manhattan Distance) 在曼哈顿要从一个十字路口开车到另外一个十字路口,实际驾驶距离就是这个“曼哈顿距离”。而这原创 2020-08-12 11:00:45 · 15708 阅读 · 4 评论 -
Spark数据倾斜问题解决与如何对pairRDD内部采样
1、问题背景最近遇到一个这样的需求,需要将原始数据按照key进行汇总,然后把对应key的value数据按照时间排序进行排序,最后分别对每个key进行相同的value操作,于是遇到了严重的数据倾斜问题。单个task接收到了单个key对应的大量value数据,造成处理耗时甚至OOM内存溢出或不足,使得整个任务被拖累。2、数据倾斜解决方案2.1、初步切分数据由于需求的特殊性,key对应的val...原创 2020-04-17 22:53:24 · 271 阅读 · 0 评论 -
算法系列 - 广告反作弊概述
以下所有内容均整理于各种博客一、广告名词解释网络营销之所以越来越受到重视一个主要的原因就是因为“精准”。相比较传统媒体的陈旧广告形式,网络营销能为广告主带来更为确切的效果与回报,更有传统媒体所没有的即时互动性。很多企业借助于精准的网络营销成为人尽皆知的知名品牌。众多的成功案例吸引着更多的企业计划投入到网络营销中的大潮中来。那么我们在做网络营销前应该要了解哪些基本知识呢?博大精微数据库营销今天开...原创 2020-04-13 17:39:26 · 3675 阅读 · 0 评论 -
spark开发问题汇总 (持续更新20210604)
一、两个同类型的rdd合并union(ortherDataset):将两个RDD中的数据集进行合并,最终返回两个RDD的并集,若RDD中存在相同的元素也不会去重//省略sc val rdd1 = sc.parallelize(1 to 3) val rdd2 = sc.parallelize(3 to 5) val unionRDD = rdd1.union(rdd2) ...原创 2019-10-27 20:50:35 · 482 阅读 · 2 评论 -
Flink开发问题汇总 (持续更新20210219)
主要记录使用flink中遇到的各种问题原创 2019-10-27 17:24:04 · 2085 阅读 · 0 评论 -
2017-实习:机器学习、大数据开发、研发等岗位面经
前言刚过完年,就开始到处找实习了,可惜后来发生了一些事情,耽误了春招实习,也完全改变了人生方向。。。 后来到处找散招的实习以及参加春招的暑假实习生笔面试,总共经历了十家公司的面试,相比我秋招的二十家面试少了一半,呵呵哒。。。 同时欢迎大家看我的秋招面经帖子,干货很多的 2017-我的秋招之路:机器学习/算法工程师(含大量面经)算法/研发岗位实习生面经高德地图 (数据挖掘实习生,电话一面,201原创 2017-11-12 20:16:35 · 8758 阅读 · 0 评论 -
2017-秋招:机器学习/算法工程师(含大量面经)
前言:从今年的8月1号正式开启秋招到现在,过去三个多月了,发生了很多事情,经历了N多场笔试和面试,深深感慨到本硕双非的学生找算法岗的艰辛。。。,当经过了8、9月份的种种面试挂掉后,终于从十月下旬陆续收到了几个offer,而且其中还有自己喜欢的公司,不得不感慨那句《极限挑战》的结束语“这,就是,命!”奇怪的数字:对于我的整个秋招情况,有下面几组数据,我感觉很有意思,而且感觉和自然数e有关:发送的申请原创 2017-11-05 11:03:16 · 17243 阅读 · 16 评论 -
【转载】Anaconda2下的Python2.7和Python3.5的共存
Anaconda2下的Python2.7和Python3.5的共存转载 2017-04-23 21:59:50 · 5088 阅读 · 2 评论 -
Numpy多维数组保存文档时,解决报错TypeError: Mismatch 的方法
TypeError: Mismatch between array dtype (‘float64’) and format specifier (‘%.18e %.18e’)原创 2017-04-08 20:56:11 · 16494 阅读 · 1 评论