自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人month神话

仁者见智智者见仁

  • 博客(14)
  • 资源 (7)
  • 收藏
  • 关注

原创 Spark 安装与卸载 (windows 10)

文章目录先决条件系统要求安装步骤Java安装步骤:(已安装可跳过)测试Java安装:(已安装可跳过)测试安装结果:从Windows 10系统中卸载Spark:删除系统/用户变量步骤:Apache Spark是一个快速通用的集群计算系统。它提供了Java、Scala、Python和R语言的高级API,拥有优化了的通用图计算引擎。它还拥有丰富的其他高级工具,如:用于SQL和结构化数据处理的Spark SQL 、用于机器学习的MLlib、用于图计算的GraphX、以及用于流式批处理的Spark Streamin

2020-05-10 17:43:44 8693 3

原创 word2vec梳理--part2--负采样

在word2vec的第2部分(第1部分在这里(https://blog.csdn.net/fengrucheng/article/details/115705827)),将介绍对skip-gram模型的一系列优化,这些优化使得训练切实可行,因此非常重要。首先再明确一下我们的任务本质:skip模型--输入中间词,输出周围词(这与CBOW模型不同--输入周围词,输出中间词)当你看一些关于Word2Vec的skip-gram模型的教程时,你可能已经注意到了一些东西——这是一个巨大的神经网络!在之.

2021-04-18 11:14:32 4544 1

原创 word2vec梳理--part1--skip gram架构

本文主要介绍Word2Vec的skip-gram神经网络结构。目的是跳过通常关于Word2Vec的介绍性和抽象的见解,深入了解更多细节。skip-gram神经网络模型在其最基本的形式上实际上非常简单;一开始过多的关注于各种优化会影响理解。初步理解:抽象来看,Word2Vec使用了一个机器学习中常用的技巧:训练一个简单的神经网络,用一个隐藏层来执行一个特定的任务(伪任务, fake task),但其目标产出不是这个任务!相反,我们的目标实际上只是学习隐藏层的权重——我们将看到这些权重实际上是.

2021-04-14 18:37:04 632

原创 attention和transformer的理解

先说attention是什么。attention也就是注意力机制,抽象来说是一种资源分配的方案,解决信息超载问题注意力机制的计算可以分两步:一、在所有输入信息上计算注意力分布二、根据注意力分布来计算输入信息的加权平均现在常用的是用键值对(key-value)来表示输入信息。抽象计算公式如下:注意力分布???????? 表示了在查询 ???? 时,第n个输入向量受关注的程度而关于注意力分布的计算,需要先计算打分,相应的打分函数有:当前最常用的是缩放点积模型

2021-03-10 18:38:26 2289

原创 快速排序及其思想应用(求第K大)

本文内容纯干货,假设读着有一定的基础,重在总结。整体行文逻辑如下:如何优雅的写快排 第k大问题的几种解法 快排思想解第K大快排:快排的思想随便找本书就可以找到,二分思想,递归实现。算法理解起来简单,但在面试时想优雅的写出来却不容易。下面是我见过的比较优雅的python实现:def partition(arr, i, j): if i >= j: return loc, start, end = i, i, j while i < j

2021-02-21 12:07:26 297

原创 深度学习中的Normalization

最近入坑炼丹,用pytorch各种搭积木,感天地之灵气,吸日月之精华。。。一顿操作猛如虎,再看输出就想哭。现象:模型训练很不稳定,运气好的时候能收敛,运气差点结果直接飞掉。方案:偶尔看到pytorch中的Normalization layers,后来加了个bn层,效果出人意料的好!https://pytorch.org/docs/stable/nn.html#normalization-layers不仅好奇,怎么做到的,真是牛掰格拉斯啊!!查询了各种资料,对于normaliz

2020-12-07 21:35:55 171

原创 欧氏距离和余弦相似度的前世今缘

前几天在一场报告中和同事聊到了高维向量的距离度量,大家讨论的点是:欧式距离在高维下效果会非常差,那有没有其他更有效的方法?当时第一时间想到了余弦相似度,印象中在文本相似度(文本匹配)度量中就是用的余弦相似度。而且在深度学习中,也经常通过计算两个向量的内积来表示相似程度。然后同事说,余弦相似度只是欧式距离的归一化表示,本质没有区别。当场懵逼:)高维相似度量的讨论结果不重要了,最后再说,先说欧式和余弦的问题。闻道有先后,能发现问题令人兴奋;既然遇到了不懂的,慢慢搞懂就好了。下面分..

2020-11-29 23:39:09 463

原创 如何理解神经网络里的反向传播

反向传播的底层原理是数学求导里的链式法则,有空再补充一般讲反向传播都离不开神经网络,然后就得有公式和结构图。OK。公式占坑。结构图占坑。行动主义者容易被复杂的公式和结构图搞的很复杂,作为程序员,上代码。# -*- coding: utf-8 -*-import numpy as np# N is batch size; D_in is input dimension;# H is hidden dimension; D_out is output dimension.N, D_in,.

2020-06-06 22:57:36 306

原创 Retrieve top n in each group of a DataFrame in pyspark/ scala

There’s a DataFrame in pyspark with data as below:user_id object_id scoreuser_1 object_1 3user_1 object_1 1user_1 object_2 2user_2 object_1 5user_2 object_2 2user_2 object_2 6What I expect is returning 2 records in each group with the

2020-06-02 10:51:58 225 1

翻译 快速入门(spark 2.4.5)

文章目录安全使用Spark Shell的交互分析基础有关Dataset的更多操作缓存独立的应用程序从入门到放弃?本教程提供了使用Spark的快速介绍。我们将首先通过Spark的交互式shell(用Python或Scala)介绍API,然后展示如何用Java、Scala和Python编写应用程序。想要按照本指南学习,首先需要从Spark网站下载Spark的打包版本。因为我们不使用HDFS,所以您...

2020-05-07 18:23:32 480

翻译 机器学习库(MLlib)指南(Spark 2.4.5)

MLlib是Spark的机器学习(ML)库。它的目标是使机器学习的实际应用变得容易和可扩展。在较高层次上,它提供了以下工具:ML算法:常见的学习算法,如分类、回归、聚类和协作过滤 特征化:特征提取、转换、降维和筛选 工作流(Pipelines):构建、评估和调整ML工作流的工具 持久性:保存和加载算法、模型和工作流 实用程序:线性代数、统计学、数据处理等。注:基于DataFrame的...

2020-05-04 15:37:21 933

翻译 Piranha介绍:过期代码自动删除的开源工具

在Uber,我们使用功能标志(feature flags)定制移动应用程序的执行,为不同的用户组提供不同的功能。例如,这些标志允许我们将用户的体验本地化到我们操作的不同区域,更重要的是,我们可以逐步向用户推出功能,并尝试同一功能的不同变体。然而,在一个特性被100%地发布给我们的用户或者一个实验性的特性被认为是不成功的之后,代码中的特性标志就过时了。这些非功能特性标志可以说是技术“债...

2020-05-02 21:18:37 681

转载 支持向量机通俗导论(理解SVM的三层境界)

支持向量机通俗导论(理解SVM的三层境界)作者:July ;致谢:pluskid、白石、JerryLead。出处:结构之法算法之道blog。原文地址:支持向量机通俗导论(理解SVM的三层境界)前言    动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这

2015-12-01 16:54:15 1020

转载 数据挖掘的数据集资源

数据挖掘数据集目录汇总

2015-10-11 19:37:59 472

决策树ID3算法的实现

决策树ID3算法的实现

2016-10-26

FP-GROWTH算法的实现

FP-GROWTH算法的实现

2016-10-26

BP神经网络的实现

BP神经网络的实现

2016-10-26

贝叶斯网络算法的实现

贝叶斯网络算法的实现

2016-10-26

关联规则挖掘算法apriori算法的实现

关联规则挖掘算法apriori算法的实现

2016-10-26

htmlparser的jar包

htmlparser里面需要的两个jar包,里面冲突的地方进行了修正,需要使用时直接添加到工程里就可以用了

2014-11-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除