自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Pytorch data types and type conversion

Pytorch的数据类型以及一些学习总结

2024-06-28 11:26:38 862

原创 POS tagging(词性标注) 上

词性标注是将给定文本中每个单词与其正确的词性联系起来的任务,本质是一个序列标记问题,也就是说,它为一个序列的每一个部分提供一个label。其他的例子还有tokenization,semantic Role Labeling(SLR),Word Sense Disambiguation。

2023-07-25 01:01:22 181

原创 GCN blog阅读

GCN大佬文章总结,原文链接。

2023-07-24 23:48:01 55

原创 NLP 学习笔记 3: Data preparation, tokenization, and filtering.

tokenization是对一串输入字符进行划分和分类的任务,其输出的token将会被用于其他处理。

2023-07-21 23:59:44 102

原创 NLP 学习笔记 2 :Word2Vec

word2vec实现代码

2023-07-21 00:22:24 98

原创 NLP 学习笔记 1:pytorch基础操作以及Perceptron 和 FF networks实现

基础pytorch操作以及nlp 语言分类的一些简单模型(perception,FF network)的实现

2023-07-20 23:36:49 96

原创 机器学习数据预处理(一)

一些有用的机器学习data cleaning的方法,也是训练机器学习模型前对数据集的常见处理。

2023-06-06 20:33:17 131

原创 self attention详解

公式详解self attention

2023-06-01 08:33:17 377

原创 大数据计算(Big Data Computing) (二) MapReduce(上)

1 MapReduce:MapReduce是一种:在cluster上为了处理大数据集,使用并行,分布式算法的编程模型(什么是cluster请看上篇文章)。它解决了集群架构的三个问题,他的解决方法是:在多个节点上冗余的存储数据以保证数据和计算的可行性 将计算移到接近数据,减小网络传输量 提供简单的计算模型来隐藏分布式环境2 分布式文件存储(Distributed File System)DFS是一种冗余存储的基础设施,提供了全局文件命名空间,并且能在一个cluster的节点间使用。一些著名的

2022-03-26 20:15:57 1638

原创 基于动量的逻辑回归实现

1 梯度下降梯度下降是一种一阶迭代迭代最小化算法,总体思想是:向损失函数下降最快的地方移动从某点 开始 迭代计算: (是损失函数 ) 当最小值达到时结束我们可以表示为α在机器学习中被称为学习率,但是梯度下降每一步的长度并非仅仅与α有关,而是与有关。当太小时会导致收敛速度非常慢,太大时会有overshooting的风险,最佳的值可以通过line search找到 。2 衰减与动量(momentum)学习率的变化可以是适应性的,也可以是遵循一定计划的。我们可以通过定义一个衰...

2022-03-08 22:03:52 1006

原创 大数据计算(Big Data Computing) (一)简介

本系列是大数据计算课程总结,目的是介绍适用于跨计算机集群的大规模数据分析的编程模型和工具,并在标准框架(hadoop,sapark)的基础下开发大数据/机器学习解决方案

2022-03-04 19:33:44 5606

原创 Distributed System 基础(五)协议(Protocol)(上)

1 原子提交(Atomic commit)在我们分布式系统中存在许许多多的进程,p1,p2,p3...pn,我们希望每一个进程都能够知道他应该执行什么事务,同时,我们也希望每个进程能够保持同步,执行相同的事务,这就叫做提交(commit).如果一个事务被提交了,那么所有进程都将会知道,并且执行操作。例如:维护数据库的每个副本一致。在这个过程中,我们有一个最大的问题,叫做错误(fault),我们可能会有许许多多的错误。错误分两种:Crash failures:系统停止工作 Byzantine fai

2022-02-12 04:17:28 188

原创 Distributed System 基础(四)隐私性(Privacy)

当我们谈到网络的隐蔽性时,我们首先会想到一个例子的是隐身浏览(或者称为私人浏览)。这是浏览器提供的确保本地用户隐私的方式,比如:不记录搜索历史等。我们分布式系统所分析的隐私性是指全局隐私,指对网络提供商,government等的匿名性。1 TOR 匿名系统TOR全名:The Onion Routing。其基本思路是:如果我们在全世界范围内有着大量的某舟服务器(称为TOR路由器,大约有8000个),如果有人想要连入网络,浏览网页,那么他首先需要连入一个叫做Guard的路由器,之后再连入一个类似的路由器

2022-01-30 18:16:30 795

原创 Distributed System 基础(三)端到端系统(Peer-to-peer Systems)

列举几个例子:E-mule,BitTorrent,Napster...他们都没有central authority,并且是在全球范围使用。这些系统极具动态性,人们能随时链接或者断开链接。他们的效率并没有那么高,所以现在已经过时。1 分布式文件存储-BitTorrent的总体思想如果你想把文件从服务器发送给数百万用户,那么让他们链接到同一台服务器是有很大问题的。可能会产生单点错误(single point of failure)或者巨大的瓶颈问题(bottleneck problem)。对此,可以使用

2022-01-28 20:28:58 3785

原创 Distributed System 基础(一)Distributed computation

分布式系统学习笔记

2022-01-26 21:56:53 521

原创 排队论(Queuing Theory)概率背景

//这部分主要是总结一些概率论的基本知识,有一定了解的读者可以自行跳过样本空间(Sample Space):我们进行一项实验,并且有一个可能的结果的集合。这个就被称为:样本空间。样本空间可以使离散的,也可以是连续的。事件(Event):样本空间的子集Theorem:条件概率(Conditional Probability):where P{F}>0事件E与F相互独立: 注意到如果E与F相互独立,则,即E不会受到F的影响事件E与F互斥(Mutually e...

2021-08-01 01:14:33 454

原创 排队论(Queuing theory)简介

本系列博客主要讲述了排队论在计算机系统中的应用(即Computer Network Performance),是我研究生课程的学习笔记,如果看的人多可能会继续更下去。

2021-07-26 09:08:09 1964

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除