自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 资源 (1)
  • 收藏
  • 关注

原创 SD系列——图像高清化算法方法

图片放大高清化方法总结

2023-09-15 18:46:40 4178

原创 MIT 6.S965 韩松课程 05

回顾计算机系统中的数据类型,介绍神经网络中的量化,以及介绍三种常见的量化方法。

2023-04-11 14:25:30 720 2

原创 MIT 6.S965 韩松课程 04

Have you found it difficult to deploy neural networks on mobile devices and IoT devices? Have you ever found it too slow to train neural networks?

2023-02-16 10:07:26 770 5

原创 MIT 6.S965 韩松课程 03

Have you found it difficult to deploy neural networks on mobile devices and IoT devices? Have you ever found it too slow to train neural networks?

2023-02-10 18:05:31 835

原创 MIT 6.S965 韩松课程 02

Review the basics of deep learning and introduce efficiency metrics for neural networks.

2023-02-09 09:59:58 578

原创 PyTorch grad 与 Optimizer(params) 区别

目录PyTorch grad 与 Optimizer(params) 区别PyTorch grad 与 Optimizer(params) 区别Tensor 可以设置属性 requires_grad=True/False 说明其是否进行梯度更新,而 Optimizer(params) 可以用来指定要进行优化的参数有哪些。那么二者究竟有啥区别,但需要冻结某些参数时,正确的做法又应该是什么,二选一还是都应该设置?我们通过下面的一系列实验进行说明:(除实验一外,其他所有实验中的省略部分参考实验一部分).

2021-10-22 17:16:09 820 2

原创 XGBoost 知识点总结

目录一、提升树介绍1.1 监督学习元素1.1.1 模型和参数1.1.2 目标函数:训练损失+正则化1.1.3 为什么需要一般性原则1.2 决策树集成1.3 树提升1.3.1 Additive Training1.3.2 模型复杂度1.3.3 结构分1.3.4 学习树结构1.4 小结二、公式推导解释2.1 XGBoost 的目标函数2.2 学习第 ttt 棵树2.3 泰勒展开2.4 定义一棵树2.5 定义树的复杂度2.6 叶子结点归组2.7 树结构打分2.8 树的生长细节2.8.1 分裂一个结点2.8.2 .

2021-07-27 16:23:30 534

原创 李宏毅 机器学习 2016 秋:7、Brief Introduction of Deep Learning

文章目录7、Brief Introduction of Deep Learning7、Brief Introduction of Deep LearningDeep learning 现在非常的热门,所以,它可以用在什么地方,我觉得真的还不需要多讲,我觉得大家搞不好都知道得比我更多,我相信如果你随便用 deep learning 当作关键字,胡乱 google 一下,你就可以找到一大堆的、exciting 的 result,所以,我们就直接用这个图呢,来简单地 summarize 一下这个趋势,这个.

2021-06-21 20:32:47 189

原创 李宏毅 机器学习 2016 秋:6、Classification: Logistic Regression

文章目录六、Classification: Logistic Regression六、Classification: Logistic Regression我们来讲 Logistic Regression,我们在上一份投影片里面,我们都已经知道说,我们要找的东西呢,是一个机率,是一个 Posterior probability,如果这个 Posterior probability > 0.5 的话,就 output C1C_1C1​,否则呢,就 output C2C_2C2​,我们知道这个 p.

2021-06-20 11:36:37 180

原创 李宏毅 机器学习 2016 秋:5、Classification:Probabilistic Generative Model

文章目录五、Classification:Probabilistic Generative Model五、Classification:Probabilistic Generative Model接下来我们要来进入新的主题,我们要来讲分类这件事情,在分类这件事情呢,我们要找的是一个 function,它的 input 是一个 object xxx,它的 output 是这个 object 属于哪一个 class,属于 nnn 个 class 的哪一个,那这样的 task 有很多的 applicati.

2021-06-09 21:51:06 319

原创 李宏毅 机器学习 2016 秋:4、bias vs variance

文章目录四、Where does the error come from四、Where does the error come from我们上一次有看到说,如果你选择不同的 function set,你就是选择不同的 model,你在 testing data 上也会得到不同的 error,而且越复杂的 model 不见得会给你越低的 error,你会发现说,做 linear regression 的时候,我们考虑的 input 是 1 次、1 次 2 次、 1 次 2 次 3 次一直到 1 次到 5.

2021-06-07 21:44:49 250

原创 李宏毅 机器学习 2016 秋:3、Gradient Descent

文章目录三、Gradient Descent3.1 Tuning your learning rates3.2 Stochastic Gradient Descent3.3 Feature Scaling3.4 理论支持三、Gradient Descent今天我们要讲的是 Gradient Descent,Gradient Descent 我们上次已经大概讲过怎么做了,但是有一些小技巧呢,你可能是不知道的,所以我们要再详细说明一下,Gradient Descent 你要怎么把它做得更好,那我们上次是这.

2021-06-05 15:07:31 151 2

原创 李宏毅 机器学习 2016 秋:2、Regression

二、Regression: Case Study我们今天要讲的是 Regression,等一下我会举一个例子,来讲 Regression 是怎么做的,顺便引出一些 machine learning 里面,常见的重要观念。那 regression 可以做什么?除了预测 PM2.5 这个任务以外,还有很多其他非常有用的 task。举例来说,,如果你可以做一个股票预测的系统,如果你可以做一个股票预测的系统,你要做的事情就是找一个function,这个 function 的 input 可能是过去十年各种.

2021-06-03 23:58:21 176 2

原创 李宏毅 机器学习 2016 秋:1、Learning Map

从本篇开始,记录李宏毅 机器学习 2016 秋 相关课程内容,图片内容均来自课程 PPT,文字内容全部来自于课程视频字幕文字,之所以这样整理的目的是同样的内容看视频需要一个小时,看文章远小于 1 个小时,且视频存储起来,看起来也比较麻烦。至于为什么从 16 年这么古老的年代开始,首先这些课程内容都是一些基础知识,没有过时一说,且最新课程很多内容也都是引用以往课程中相关内容,因此我们从头开始。一、Learning Map这是这学期要学习的地图,我们接下来一块一块的看一下这学期都学些什么。接下来..

2021-06-03 23:31:09 255 2

翻译 geeksforgeeks —— 算法 1

目录算法一、查找和排序1.1 线性查找1.2 二分查找1.3 跳跃搜索1.4 插值搜索1.5 指数搜索1.6 为什么二元搜索优于三元搜索?1.7 选择排序1.8 冒泡排序1.9 插入排序1.10 归并排序1.11 堆排序1.12 快速排序geeksforgeeks 上有很多不错的基础性计算机学科知识,其风格不过多注重理论,也不是一味的像 leetcode 那种刷题,每一篇内容篇幅安排的都较短,也有一定的知识组织架构,非常适合初学者或作为工具字典书定向查阅相关内容。该合集内容主要针对的是算法与数据结构.

2021-05-29 17:04:06 963

翻译 Simhash 与汉明距离问题求解

目录Simhash 与汉明距离问题求解simhash 的生成图像的处理求解汉明距离问题表的存储其他配置Simhash 与汉明距离问题求解Simhash 是一种聪明的方法,可以在一个大语料库中快速找到几乎相同的文档(或其他项目),而不必单独将每个文档和其他文档进行比较。对任何规模的语料库使用 simhash 包含两个部分:生成 simhash本身和解决汉明距离问题。二者缺一不可。与 minhash 不同,simhash 方法实际上不允许完全相似性检测,因为它敏感的相似性范围非常小。最好用近似重复检测来描.

2021-05-12 15:54:52 679

原创 基数统计—— HyperLogLog 算法

目录基数计数基本概念基数计数方法B树bitmap概率算法HLL直观演示HLL 的实际步骤算法来源(N次伯努利过程)解释LogLogCounting均匀随机化分桶平均偏差修正误差分析算法应用误差控制内存使用分析合并HyperLogLog Counting基本算法偏差分析分段偏差修正结论并行化应用场景参考阅读文章主体内容来自于 神奇的 HyperLogLog 算法,原创链接貌似已失效,可参照大概是其转载内容 HyperLogLog ,本文在此基础上略有删改。基数计数基本概念**基数计数(cardin.

2021-04-24 14:59:53 464

原创 4、Reading Rasa Source Code —— Domain 解析

目录四、Train —— 准备工作五、Train —— domain 解析缓存数据的加载初始化四、Train —— 准备工作当我们执行 rasa train 命令后,实际会进入到函数 rasa.cli.train.train() 中,这相当于模型训练的主函数,接下来,我们将对该过程进行拆解,看看 rasa train 背后,都发生了什么。# rasa.cli.train.train()def train(): domain = rasa.cli.utils.get_validated_pa.

2021-03-14 14:12:44 639

原创 3、Reading Rasa Source Code —— entry

目录3、Reeading Rasa Source Code —— entry3、Reeading Rasa Source Code —— entry在创建各命令的参数设置后,rasa 又对 log 设置、第三方包的 log 设置以及 TensorFlow 的 cpu/gpu 运行环境等做了一些准备工作,这部分的内容比较简单,就不做介绍。# rasa.__main__.main()if hasattr(cmdline_arguments, "func"): # 如果具有.

2021-03-02 09:56:49 261 1

原创 2、Reading Rasa Source Code —— CLI

目录2、Reading Rasa Source Code —— CLI2、Reading Rasa Source Code —— CLI在进入主函数后,前三行的内容主要与 rasa 命令行内容相关,parse_last_positional_argument_as_model_path() arg_parser = create_argument_parser(.

2021-03-01 16:00:22 306

原创 1、Reading Rasa Source Code —— main

目录mainmain从 pypi 官方网站上下载 rasa 的最后一个释放版本(截止目前,最新版本为 2.2.1)的源码,解压后,在根目录下,找到 setup.py 文件,这是安装引导程序,我们主要关注的是 entry_points ,Entry points 是可以用来支持自动生成脚本的,即通过 pip 安装 rasa 后,在 Python 解释器所在的 bin 文件夹下,会生成一个 rasa 脚本,这就是为什么安装 rasa 后,我们就可以直接通过 shell 执行一些 rasa 命令,如 ras.

2020-12-22 15:15:28 519

翻译 聊天机器人和 Rasa 2.0 的新增功能

目录聊天机器人和 Rasa 2.0 的新增功能文件夹和文件层次结构配置config.ymlPipelinePoliciesImportersDomaindomain.ymlTraining Data FormatNLUNLU metadata检索意图(Retrieval intents)实体(Entities)同义词(Synonyms)正则(Regex)查找表(Lookup tables)故事(Stories)表单(Forms)检查点(Checkpoints)和 OR 语句规则(Rules)测试结论参考资.

2020-12-21 14:43:51 1082

原创 Git 合并冲突及解决(一)

目录Git 分支冲突及解决一、单个分支下多人协作情景一:多人编辑了同一文件情景二:重命名与编辑(一)情景三、删除与编辑情景四、重命名与编辑(二)二、分支合并冲突Git 分支冲突及解决一、单个分支下多人协作情景一:多人编辑了同一文件用户一修改了 readme 并提交:用户二也修改了 readme ,当 pull 的时候因为本地也修改过 readme 了与远程仓库内容不一致了,造成了冲突。这里提示我们本地修改的内容还没有暂存,需要先暂存起来。暂存后,再次 pull,就会自动合并,合并的冲突保存.

2020-11-14 09:12:53 1476

原创 NER —— Bert/ALBert+CRF

目录Bert/ALBert+CRF一、模型简介1、Bert:双向预训练 + 微调1.1 背景1.2 模型结构1.3 输入输出1.4 Masked Language Model1.5 Next Sentence Prediction1.6 Bert 微调2、ALBert:轻量级 Bert2.1 背景2.2 Embedding 矩阵分解2.3 层次间的参数共享2.4 句子顺序预测损失二、代码详解1、主函数 `run_ner_crf.main()`1.1 环境准备1.2 三大组件1.3 train/eval/p.

2020-11-13 09:11:29 3795 2

原创 NER —— BiLSTM+CRF

目录BiLSTM+CRF1、原理讲解1.1 LSTM1.2 BiLSTM1.3 CRF1.3.1 Emission Score1.3.2 Transition 分数1.3.3 CRF loss1.3.4 推理2、核心代码[^3][^5]2.1、CRF 部分整体概览[^4]2.2、计算 loss2.3、计算分子部分2.5 维特比解码参考资料:附录计算所有路径的总分计算推理BiLSTM+CRF注:以下所有内容均非原创,是集合几篇内容不错的资料集中整理的,含理论讲解、公式推导、代码结合等多个过程,重在讲解.

2020-10-28 17:08:15 391

原创 工具篇——2、autojump

目录二、autojump2.1 安装2.2 使用二、autojumpautojump 是一个可以帮助快速导航文件目录的便捷小工具。其官方介绍内容为:autojump is a faster way to navigate your filesystem. It works by maintaining a database of the directories you use the most from the command line.Directories must be visited f.

2020-10-22 21:05:06 431

翻译 KMeans 聚类算法

目录0、环境准备1、聚类 vs 分类2、K-Means2.1、数据拟合和预测2.2、画出决策边界2.3、硬聚类 vs 软聚类2.4、K-Means 算法详解2.5、K-Means 易变性2.6、Inertia2.7、K-Means++2.8、K-Means 加速2.9、Mini-Batch K-Means2.10、如何确定最优的聚类数2.11、K-Means 的局限性在介绍 KMeans 文本聚类 后,我们此篇内容对 KMeans 算法做进一步详细介绍。因关于 KMeans 等经典算法的介绍,无论是原.

2020-10-15 13:05:33 5285

原创 文本聚类(二)—— KMeans 聚类

目录二、KMeans 聚类2.1 加载数据集2.2 数据清洗2.3 文本向量化2.4 文本聚类2.5 关键词展示2.6 判定最佳聚类数参考文档这第一篇内容中,我们介绍了 LDA 主题模型,这一篇,我们将介绍经典的 KMeans 聚类算法在文本上的表现。为了方便和前面 LDA 主题模型对比,我们依然使用同一份数据集,对数据的前期处理保持一致。二、KMeans 聚类2.1 加载数据集df = pd.read_csv('/content/drive/My Drive/cnews.train.txt',.

2020-10-13 15:07:22 8838 9

原创 工具篇——1、TMUX

目录工具篇一、TMUX1、安装2、概念3、具体操作3.1 会话3.2 窗口窗口管理3、Panes窗格管理4、TMUX 配置5、会话共享工具篇本系列专门用于记录一些软件或者小工具的使用,工欲善其事必先利其器,拥有称心如意的工具,可以大大提高我们的工作效率。一、TMUX之所以选择 TMUX 作为第一个工具介绍,是因为从第一次接触它,便真的彻底喜欢上了它,我认识它的时间并不长,是从过年疫情在家期间才初次接触到它。为什么喜欢它呢?它又好在哪里?我相信作为初学者都和我之前一样,肯定遇到了以下几种情况:打.

2020-10-11 21:13:53 682 1

原创 文本聚类(一)—— LDA 主题模型

目录文本聚类一、LDA 主题模型1.1 加载数据集1.2 数据清洗、分词1.3 构建词典、语料向量化表示1.4 构建 LDA 模型1.5 小结文本聚类因工作需要,近期需要做一些文本聚类方面的事情,算法方面主要选择的是传统的机器学习算法,主要尝试的是 LDA 主题模型和 K-Means 聚类算法,使用的数据集是 THUCNews 新闻文本分类数据集,其中只使用了训练集 cnews.train.txt 部分,下面我们首先尝试 LDA 主题模型算法:下面首先导入一些需要用到的算法包:import war.

2020-09-20 16:09:07 23167 53

翻译 图解 Reformer: The efficient Transformer

目录????图解 Reformer: The efficient TransformerWhy Transformer?What’s missing from the Transformer????? Problem 1 (Red ????): Attention computation???? Problem 2 (Black ????): Large number of layers???? Problem 3 (Green ...

2020-02-09 10:47:03 2781

原创 二、正则表达式、文本正则化、编辑距离

目录二、正则表达式、文本正则化、编辑距离2.1 Regular Expressions2.1.1 基本的正则表达式模式2.1.2 Disjunction(析取)、Grouping、以及优先级顺序2.1.5 更多操作符(小结)2.1.6 正则表达式替换、捕获组2.2 Words2.3 语料2.4 文本正则化2.4.1 利用 Unix 工具粗糙的分词和正则化2.4.3 中文分词:最大匹配算法2.4....

2020-02-06 09:32:14 1839

翻译 concurrent.futures —— 并发任务池的管理

目录concurrent.futures —— 并发任务池的管理使用基础线程池的 `map()` 方法单个任务的调度任意顺序等待任务Future 回调任务取消任务中的异常上下文管理进程池concurrent.futures —— 并发任务池的管理目的:使并发和并行任务运行管理更加简单concurrent.futures 模块提供了使用线程池和进程池管理任务 worker 的接口。它们的...

2020-02-04 11:40:18 410

原创 Python 语法篇(不定期增删改)

目录Python 语法一、dictPython 语法以下所有内容都是我在平时的习惯写法以及更好的解决方案,也是未来需要逐步优化的地方,当熟练后能够下意识的使用新方案替换原始写法后,该项会被移除。无论写多少博客,总结了多少内容,如果不在脑子里,不在下意识中,这个知识还不能说属于你!一、dictQ1: 往字典项中添加新内容,如果 key 存在则追加,如果没有则新建。dic = {1:[...

2019-12-28 22:27:23 107

翻译 Python 并发系列 3 —— 示例大战

目录三、进程、线程、协程 示例大作战3.1 顺序执行3.2 线程并发一般线程模块线程池3.3 AsyncIO一般 asyncio 模块更好的方式:创建 AsyncIO tasks有关在异步任务中阻止调用的警告竞争条件AsyncIO 很少出现竞争条件3.4 多进程同步版本异步版本三、进程、线程、协程 示例大作战翻译自:AsyncIO, Threading, and Multiprocessi...

2019-12-12 16:39:57 262

翻译 Python 并发系列 2 —— 各种并发方案的选择

二、异步 Python:不同形式的并发翻译自:Async Python: The Different Forms of Concurrency随着 Python 3 的出现,我们听到了很多关于“异步(async)”和“并发(concurrency)”的讨论,人们可能会简单地假设 Python 最近才引入了这些概念/功能。但这显然不是,我们已经使用异步和并发操作很多次了。许多初学者可能认为 ...

2019-12-12 16:33:30 517

翻译 Python 并发系列 1 —— GIL

目录一、Python 全局解释锁(GIL)是啥?1.1、GIL 解决了 Python 什么问题1.2、为什么选择了 GIL 这个解决方案1.3 三、对 Python 多线程的影响1.4、为什么 GIL 还没有被移除1.5、为什么不在 Python 3 中移除 GIL1.6、怎样处理 Python 的 GIL一、Python 全局解释锁(GIL)是啥?翻译自:What is the Pyth...

2019-12-12 16:26:14 922

翻译 14、C 语言中的变量范围 – 静态还是动态?

目录14、C 语言中的变量范围 – 静态还是动态?14、C 语言中的变量范围 – 静态还是动态?在 C 中,变量范围总是静态的,即变量的范围可以由程序文本来确定,并且独立于运行时函数调用堆栈。例如,下面程序的输出为 0,即 f() 返回的值不依赖于谁调用它。f() 总是返回全局变量 x 的值。# include <stdio.h> int x = 0; int f(...

2019-12-06 09:55:40 201

原创 MobileNet-V1

目录MobileNet-V11、深度可分离卷积2、MobileNet V1 模型架构3、宽度乘子 α\alphaα 和分辨率乘子 ρ\rhoρ4、对比同时期的一些重量级模型MobileNet-V1Author:Andrew G. Howard et al.MobileNetV1出自谷歌,主要技术是采用深度可分离卷积(Depthwise Separable Convolution)减低模型的...

2019-12-05 12:42:03 452

翻译 13、C 语言中的变量和关键字

目录13、C 语言中的变量和关键字13、C 语言中的变量和关键字简单地说,变量是一个存储空间,其中分配了一些内存。基本上,用于存储某种形式数据的变量。不同类型的变量需要不同数量的内存,并且有一些可以应用于它们的特定操作集。变量声明:一个典型的变量声明语法为:type variable_name; or for multiple variables:type variable1...

2019-12-05 10:24:59 475

stopwords.txt

该资源是本人博客《文本聚类(一)—— LDA 主题模型》中所使用的停用词表,是在百度停用词表的基础上加入了一些分词后产生的单个字以及数字信息等内容,不建议作为通用性质的停用词表使用

2021-07-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除