自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 TF-IDF、BM25传统算法总结

逆文档频率度量了一个词语在整个文档集合中的重要性。IDF值越大,表示词语在整个文档集合中越不常见,因此在文档中的重要性越高。TF-IDF的计算是将词频(TF)和逆文档频率(IDF)相结合,以确定词语在文档中的整体重要性。计算出的TF-IDF值表示了词语在文档 d 中的重要性,同时考虑了在整个文档集合 D 中的全局重要性。计算出的TF值表示了词语在单个文档中的相对重要性,值越大表示词语在文档中越重要。计算出的IDF值反映了词语的全局重要性,较不常见的词语具有较高的IDF值。

2024-06-19 11:23:14 299

原创 一文详解训练LLM流程

1.摘要2.预训练3.微调SFT4.奖励模型5.基于人类反馈的强化学习6.测评

2024-06-04 10:14:24 557

原创 LLM资料

欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入MarkdownText-to-HTMLAuthorsJohnLuke。

2023-07-18 22:11:41 728 1

原创 决策树系列(四)

目录1. XGBoost1.1 目标函数1.1.2 基于决策树的目标函数1.1.3 最优切分点划分算法1.1.4 加权分位数缩略图1.1.5 稀疏感知算法1.2 优缺点2. LightGBM2.1 目标函数2.1.1 单边梯度抽样算法2.1.2 直方图算法2.1.3 互斥特征捆绑算法2.1.4 带深度限制的 Leaf-wise 算法2.1.5 类别特征最优分割3. 总结3.1 与 XGBoost 的对比3.1.1 内存更小3.1.2 速度更快本文主要介绍基于 Boosting 框架的主流集成算法,包括 X

2021-10-10 15:13:40 337

原创 决策树系列(三)

目标题1. 集成学习1.1 Bagging1.2 Boosting1.3 Stacking2. 偏差和方差2.1 集成学习的偏差和方差2.2 Bagging的偏差和方差2.3 Boosting的偏差和方差2.4 小结3. Random Forest3.1 思想3.2 优缺点4. Adaboost4.1 思想4.2 细节4.2.1 损失函数4.2.2 正则化4.3 优缺点5. GBDT5.1 思想5.1.1 回归树(Regression Decision Tree)5.1.2 梯度迭代(Gradient Bo

2021-10-09 10:34:58 282

原创 决策树系列(二)

目录1. 内容介绍2. ID32.1 思想2.2 启发函数(划分标准)2.3 缺点3. C4.53.1 思想3.2 启发函数(划分标准)3.3 剪枝策略3.3.1 预剪枝3.3.2 后剪枝3.4 缺点三级目录1. 内容介绍决策树是一个非常优秀的机器学习算法,易于理解、可解释性强,既可作为分类算法,也可用于回归问题。本章主要介绍基本树模型:ID3、C4.5、CART树。2. ID3ID3树算法的思想是建立在奥卡姆剃刀的基础上:越是小型决策树越优于大的决策树。2.1 思想在信息论上可知:信息熵越

2021-10-09 09:37:48 215

原创 决策树系列(一)

目录1.决策树总览2. 原理2.1 基本概念1.2 生成决策树生成算法:3. 特征选择3.1 信息增益3.2 信息增益比1.决策树总览决策树是一种基本的分类与回归方法。据册数模型时描述对样本进行分类的树形结构。树由结点和有向边组成:内部结点表示i个特征或者属性。叶子节点表示一个分类。有向边代表一个划分规则。决策树从根节点到子节点的有向边代表了一条路径。决策树的路径是互斥并且是完备的。用决策树分类时,对样本的某个特征进行测试,根据测试结果将样本分配到树的子结点上。此时每个结点对应特征的

2021-09-23 10:15:16 245

原创 详解EM算法

目录1. 概念2. 举例2.1 例子12.1.2 计算2.2 例子 B3. 推导4. 应用1. 概念EM算法(期望最大算法)是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。具体思想如下:EM算法的核心思想非常简单,分为两步:Expection-Step和Maximization-Step。E-Step主要通过观察数据和现有模型来估计参数,然后用这个估计的参数值来计算似然函数的期望值;而M-Step是寻找似然函数最大化时对应的参数。由于算法会保证在每次迭代之后似然函数都会增

2021-09-22 16:41:01 21329 3

原创 详解朴素贝叶斯

目录1.概念2.朴素贝叶斯分类2.1 朴素贝叶斯公式定理2.2 例题分析2.3 朴素贝叶斯算法的朴素一词解释3. 朴素贝叶斯分类的优缺点1.概念贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故称之为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是最常见的一种分类法。分类问题综述对于分类问题,其实谁都不陌生,日常生活中我们每天都进行折分类 过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常走在路上对身旁的朋友说“这个人一看就很有钱”之类的化,其实也是

2021-09-21 10:37:20 9460 4

原创 详解支持向量机(SVM)

目录1.支持向量1.1 线性可分1.2 最大间隔超平面1.3 支持向量1.4 SVM最优化问题2. 对偶问题2.1 拉格朗日乘数法2.1.1 等式约束优化问题2.1.2 不等式约束优化问题2.2 强对偶性3. SVM优化4. 软间隔4.1 解决问题4.2 优化目标及求解5. 核函数5.1 线性不可分5.2 核函数的作用5.3 常见核函数6. 优缺点6.1 优点6.2 缺点1.支持向量1.1 线性可分首先我们来了解下什么是线性可分。在二维空间桑,两类点被一条直线完全分开叫线性可分。1.2 最大间

2021-09-20 14:48:08 1511

原创 详解逻辑回归

目录1. 逻辑回归模型介绍1.1 Logistic分布1.2 Logistic回归1.3 代价函数1.4 求解1.5 正则化1.5.1 L1正则化1.5.2 L2正则化1.5.3 L1正则化和L2正则化区别2 与其他模型的对比2.1 与线性回归2.2 与 SVM2.3 与朴素贝叶斯3. 模型细节3.1 为什么适合离散特征3.2 为什么不用平方误差1. 逻辑回归模型介绍Logistic Regression虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression因为简单

2021-09-18 14:11:47 1440

原创 线性回归详解

目录1. 什么是线性回归2.一元线性回归3. 损失函数4. 最小二乘法5. 小结1. 什么是线性回归其实回归算法是相对分类算法而言的,与我们想要预测的目标变量y的值类型有关。如果目标变量y是分类型变量,如预测用户的性别(男、女),预测月季花的颜色(红、白、黄……),预测是否患有肺癌(是、否),那我们就需要用分类算法去拟合训练数据并做出预测;如果y是连续型变量,如预测用户的收入(4千,2万,10万……),预测员工的通勤距离(500m,1km,2万里……),预测患肺癌的概率(1%,50%,99%……),我们

2021-09-18 10:54:14 29720 5

原创 Bert原理详解

1. Bert模型Bert全称Bidrectional Encoder Representation fromTransformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。1.1 模型结构由于模型的构成元素是Transformer,就不多说了,Bert模型的结构如下图最左:

2021-09-17 10:37:09 3466

原创 通俗易懂的BiLSTM-CRF,用命名实体识别任务来解释CRF(一)

BiLSTM上的CRF,用命名实体识别任务来解释CRF0 导读预备知识1.介绍1.1 开始之前1.2 BiLSTM-CRF模型1.3 如果没有CRF层会怎么样1.4 CRF层可以训练数据中学习约束2. CRF层2.1 Emission得分2.2 Transition得分2.3 损失函数2.4 实际路径得分2.5所有可能的路径的得分参考链接0 导读看了很多的CRF的介绍和讲解,这个感觉是最清楚的,结合实际的应用场景,让你了解的用处和用法。预备知识你需要知道的唯一的事情是什么是命名实体识别,如果你不知道

2021-09-15 11:01:15 1116

原创 详解BiLSTM

一、介绍1.1 文章组织本文简要介绍了BiLSTM的基本原理,并以句子级情感分类任务为例介绍为什么需要使用LSTM或BiLSTM进行建模。1.2 情感分类任务自然语言处理中的情感分类任务是对给定文本进行情感倾向分类的任务,粗略来看可以认为其是分类任务中的一种。对于情感分类任务,目前通常的做法是先对词或者短语进行表示,再通过某种组合方式把句子中词的表示组合句子的表示。最后,利用句子的表示对句子进行情感分类。举一个对句子进行褒贬二分类的例子:句子:我爱你情感标签:褒义1.3 什么是LSTM和

2021-09-13 13:46:02 13376

原创 详解Transformer

详解Transformer0 前言1 详解Transformer1.1 高层Transformer1.2 输入编码1.3 Self-Attention1.3 Multi-head Attention1.4 Encoder-Decoder Attention1.5 损失层2 编码位置3 总结0 前言注意力机制是在2014年提出,并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT算法在N

2021-09-10 15:08:02 794

原创 Word2vec词向量本质

秒懂Word2vec词向量1 正文1.21二级目录三级目录1 正文在聊Word2vec之前,先聊聊NLP。NLP里面,最细粒度的是词语,词语组成句子,句子再组成段落、篇章、文档等。所以处理NLP问题,首先拿词语开到。举一个简单例子,判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列的(x,y),这里x是词语,y是它的词性,我们要构建f(x)->y的映射,但这里的数学模型f(比如神经网路、SVM)只接受数值输入,而NLP里的词语,是人类抽象总结,是符号形式的(比如中文、英文、拉丁文

2021-09-09 15:26:31 157

原创 一文读懂LSTM

一文读懂LSTM0 从RNN说起1 普通RNN2 LSTM2.1 什么是LSTM2.2 深入LSTM结构3 总结0 从RNN说起循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网路。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上下文提到的内容不同而含有不同的涵义,RNN就能很好的处理这样的数据。1 普通RNN先介绍一下一般的RNN模型。其主要的形式如下图所示(图片来源台大李宏毅PPT):这里:x维当前状态下数据

2021-09-09 10:13:04 472

原创 数据不平衡问题

这里写目录标题1. 定义2.常用处理方法2.1 欠采样2.1.1方法一(随机删除):2.1.2方法二(原型生成Prototype generation):2.2 过采样2.2.1 方法一(随机复制):2.2.2 方法二(样本构建):2.3 模型算法三级目录1. 定义数据不平衡指的是不同类别的样本量差异非常大,或者少数样本代表了业务的关键数据(少量样更重要),需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数。

2021-05-24 22:06:04 4783

原创 Windows环境下的python第三方包安装包方法总结

Anaconda 集成了很多科学计算中所需要的包,如numpy,scipy等等,具体查看anaconda中已经预先安装配置好的包有哪些,可以通过cmd命令,输入conda list 查看。但是,因为实际需求,我们会需要导入列表中没有的第三方包,如gemsim,在anaconda中,我们可以参考以下步骤安装所需要的第三方包:启动anaconda 命令窗口:开始 > 所有程序 > anaconda >anaconda prompt安装gensim包在anaconda命令窗口中,输入

2021-03-11 10:06:52 369

原创 动态规划(Dynamic Programming)

动态规划(Dynamic Programming)一 定义动态规划,Dynamic Programming(此处“Programming”为“规划”,而非指“程序”、“编程”),是指研究多步决策过程最优化问题的一种数学方法,英文缩写DP。在动态规划中,为了寻找一个问题的最优解(即最优决策过程),将整个问题划分成若干个相应的阶段,并在每个阶段都根据先前所作出的决策作出当前阶段最优决策,进而得出整个问题的最优解。通过将问题的分解为和子问题的相关性,依次迭代解决子问题,来解决最终问题。运用动态规划的来解决的

2021-03-08 15:16:58 539

原创 【论文阅读】Graph Attention Networks

目录一 论文研究背景、成果及意义二 图卷积神经网络三 GAT具体算法理解四实验设计及讨论五论文总结代码实现分析二级目录三级目录一 论文研究背景、成果及意义GAT意义:图神经网络最常用的几个模型之一(GCN,GAT,GraphSAGE)将attention机制引入到图神经网络中早期图神经网络表征学习的代表性工作,后期作为经典baseline支持直推式学习和归纳学习模型具有一定可解释性二 图卷积神经网络三 GAT具体算法理解四实验设计及讨论五论文总结代码实现分析

2020-11-30 14:37:02 134

原创 Task01 天池新闻推荐入门赛之【赛题理解+Baseline】

赛题理解:根据赛题简介,我们首先要明确我们此次比赛的目标: 根据用户历史浏览点击新闻的数据信息预测用户最后一次点击的新闻文章。从这个目标上看, 会发现此次比赛和我们之前遇到的普通的结构化比赛不太一样, 主要有两点:一、目标上, 要预测最后一次点击的新闻文章,也就是我们给用户推荐的是新闻文章, 并不是像之前那种预测一个数或者预测数据哪一类那样的问题。二、数据上, 通过给出的数据我们会发现, 这种数据也不是我们之前遇到的那种特征+标签的数据,而是基于了真实的业务场景, 拿到的用户的点击日志。所以拿到这个

2020-11-25 23:34:28 128

原创 numpy随机采样

使用 numpy.random.choice随机采样:numpy.random.choice(a, size=None, replace=True, p=None)1、按照指定概率采样:#按照分布采样def randomExample(): d1=np.array([0.2,0.3,0.5]) index=[] for num in range(100000): r = random.uniform(0, 1) for i in ra

2020-11-25 21:50:47 1502

原创 numpy输入输出

numpy二进制文件操作save()、savez()、load()是numpy专用的二进制类型数据的保存和读取,分别对应处理nidm、dtype、shapesave()输出的文件很难兼容npy格式:以二进制的方式存储的文件,在二进制文件第一行以文本形式保存了数据的元信息,可以用二进制工具查看zipnpz格式:压缩包的方式存储文件语法:numpy.save(file,arr,allow_pickle=True,fix_imports = True)numpy.load(file,mmap_mode

2020-11-23 21:17:09 101

原创 Java学习基础篇(9)

1、程序在什么情况下会出现空指针异常呢? 空引用 访问 "对象相关"的数据时,会出现空指针异常。 垃圾回收器主要针对堆内存。2、方法在调用的时候参数是如何传递的? 实际上,在java语言中,方法调用时参数传递,和类型无关,都是将变量中保存 的那个“值”传过去,这个“值”可能是一个数字100,也可能是一个java对象的内存 地址:0x1234 记住这句话:不管是哪一种数据类型的传递,都是将“变量中保存的那个值复制一份传递过去。”3、构造方法。...

2020-07-03 14:22:36 158

原创 Java学习基础篇(8)

1、面向过程和面向对象有什么区别? 从语言方面出发: 对于C语言来说,是完全面向过程的。 对于C++语言来说,是一半面向过程,一半是面向对象。(C++是半面向对象的) 对于Java语言来说,是完全面向对象的。 什么是面向过程的开发方式? 面向过程的开发方式主要的特点是: 注重步骤,注重的是实现这个功能的步骤。 第一步干什么 第二步干什么 ...

2020-07-03 11:52:56 156

原创 Java学习基础篇(7)

1、方法是什么? 方法是一段可以完成某个特定功能的并且可以被重复利用的代码片段。 方法的出现,让代码具有了很强的复用性。2、方法最难实现的是: 根据业务怎么进行方法的抽取。 方法的返回值类型定义为 什么? 方法的名字叫什么? 方法的形式参数列表定义为 什么? .... 一个方法就是一个独立的功能。3、方法的定义 [修饰符列表] 返回值类型 方法名(形式参数列表){ 方法体; }4、方法的每一个细节...

2020-07-03 11:51:17 91

原创 Java学习基础篇(6)

1、怎么接收用户键盘输入? java.util.Scanner s = new java.util.Scanner(System.in); // 接收整数 int i = s.nextInt() // 接收字符串 String str = s.next();2、控制语句 选择语句 if switch 循环语句 for while ...

2020-07-03 11:47:38 105

原创 Java学习基础篇(5)

1、数据类型 1.1、数据类型有什么用? 数据类型用来声明变量,程序在运行过程中根据不同的数据类型分配不同大小的空间。 int i = 10; double d = 1.23; i变量和d变量类型不同,空间大小不同。 1.2、数据类型在java语言中包括两种: 第一种:基本数据类型 基本数据类型又可以划分为4大类8小种: 第一类:整数型...

2020-07-03 11:42:36 95

原创 Java学习基础篇(4)

1、标识符 1.1、标识符可以标识什么,什么是标识符,怎么理解这个概念! 1.2、标识符的命名规则 1.3、标识符的命名规范 本小结最终的要求是:随意给出一个单词,判断它是否是合法的标识符。2、每一天你会编写很多程序,你会遇到很多编译错误,也会遇到很多运行错误,你是否需要准备一个单独的文件来记录这些信息,以及记录这些信息是怎么导致的,原因是什么,怎么去解决的,解决办法是啥???? 非常有必要的,要想成为一个调错高手,这个有必要进行一下。3、关键字 ...

2020-07-03 11:39:59 73

原创 Java学习基础篇(3)

1、开发第一个java程序:HelloWorld 1.1、程序写完之后,一定要ctrl + s 进行保存 第一个HelloWorld程序照抄就行了,不要问代码为什么这么写。 另外,大家需要注意的是:java源代码只要修改,必须重新编译。 重新编译生成新的class字节码文件。 1.2、编译阶段 怎么编译?使用什么命令?这个命令怎么用? 需要使用的命令是:C:\Program Files\Java\jdk-13.0.2\bin\jav...

2020-07-03 11:38:04 125

原创 Java学习基础篇(2)

1、Java语言的特性 1.1、简单性 在Java语言当中真正操作内存的是:JVM(Java虚拟机) 所有的java程序都是运行在Java虚拟机当中的。 而Java虚拟机执行过程中再去操作内存。 对于C或者C++来说程序员都是可以直接通过指针操作内存的。 C或者C++更灵活,可以直接程序员操作内存,但是要求程序员技术精湛。 C语言或者C++更有驾驭感。 Java语言屏蔽了指针概念,...

2020-07-03 11:36:15 93

原创 Java学习基础篇(1)

1、常用的DOS命令1.1、del命令,删除一个或者多个文件删除T1.class文件C:\Users\Administrator>del T1.class删除所有.class结尾的文件,支持模糊匹配C:\Users\Administrator>del *.class T1.class T1.glass del *ass 这个命令就会将T1.class和T1.glass都删除。 删除的一定是能匹配上的。 del *.class 这个命令中的那个“.”不要特殊化,这个“.”其实

2020-07-03 11:32:21 181

原创 java学习笔记(一)——面向对象解释与创建

day13 课堂笔记1、面向过程和面向对象有什么区别?对于C语言来说,是完全面向过程的。对于C++来说,一般面向过程,一半面向对象java来说,是完全面向对象的什么是面向过程的开发方式?面向过程的开发方式主要特点是:注重步骤,注重的是实现这个功能的步骤:第一步:第二步:。。。另外面向过程也注重实现的因果关系。 面向过程有什么缺点?、 面向过程最主要每一步之间的因果关系,只要其中一步出现错误,整个程序 就会出现问题。 耦合度太高 面向过程

2020-06-21 15:18:16 119

原创 词性标注与命名实体识别

词性标注与命名实体识别一 词性标注 简介 词性是词汇基本的语法属性,通常也称为词类。词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。例如,表示人、地点、事物以及其他抽象概念的名称即为名词,表示动作或状态变化的词为动词,描述或修饰名词属性、状态的词为形容词。如给定一个句子:“这儿是个非常漂亮的公园”,对其的标注结果应如下:“这儿/代词 是/动词 个/量词 非常/...

2020-05-02 15:10:53 2679

原创 中文分词

中文分词技术简介“词”这个概念一直是汉语语言学界纠缠不清而又绕不开的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定),这两个基本问题迄今为止也未能有一个权威、明确的表述,更无法拿出令大众认同的词表来。主要难点在于汉语结构与印欧体系语种差异甚大,对词的构成边界方面很难进行界定。比如,在英语中,单词本身就是“词”的表达,一篇英文文章就是“单词”加分隔符(空格)来表示的,而在汉语中...

2020-04-30 17:49:42 549

原创 爬虫学习(四)正则表达式爬取猫眼电影Top100

爬虫学习(四)正则表达式爬取猫眼电影Top100使用知识:requests库,正则表达式获取网易源码(HTML)def get_one_page(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ...

2020-04-17 17:37:30 418

原创 爬虫学习(三)爬虫基本流程

爬虫的基本流程Request和Response作用:Response包含的内容:保存数据:

2020-04-15 15:11:46 150

转载 pandas读取和写入csv文件

pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipin

2020-04-07 16:54:30 2580

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除