自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

原创 词权重 (term weight)方案总结

目录1 无监督 (unsupervised) 方法1.1 统计方法(TF, TF-IDF, YAKE)1.2 图方法 (TextRank, SingleRank, TopicRank, PositionRank)2 有监督 (supervised ) 方法2.1 Delta TF-IDF2.2 TF-IDF-ICF2.3 TF-RF2.4 TF-IGM3 语义学习方法3.1 基于关键词学习3.2 基于文本分类3.3 基于检索语义向量匹配4 文本分计算4.1 BM254.2 结合term weight1 无

2021-09-06 19:47:03 5082 1

原创 BiLSTM, CRF,BiLSTM+CRF原理讲解以及viterbi算法python实现

目录1 bilstm2 CRF3 bilstm+crf4 约束关系应用bilstm+crf解读:1 bilstm1.只有bilstm,只学习token到label的关系,但是分词还有一个特性,就是label与label之间存在约束bilstm的计算和学习过程loss,以及预测过程流程说明2 CRF3 bilstm+crf2.bilstm+crf解读crf分值:发射概率+转移概率路径的分值:发射分值:x1+x2+x3,+ 转移分值:y1->y2+y2->y3 =s最终 t

2021-08-08 17:08:02 3746

原创 正则化(regularization)方法总结

8.7 归一化和正则化的区别https://arxiv.org/pdf/1706.05350.pdf?source=post_page(https://arxiv.org/pdf/1706.05350.pdf?source=post_pagehttps://ai-pool.com/a/s/understanding-of-regularization-in-neural-networks

2021-06-30 23:19:15 18601 5

原创 深度学习归一化 (normalization) 方法总结: BN, LN, WN, IN, GN, SN

方差是协方差的一种特殊情况,即变量与自身的协方差。https://zhuanlan.zhihu.com/p/37609917首先对各原理介绍讲解清楚然后综合考虑在DL模型中以及自己实际的业务场景,这样做的一个意图

2021-05-29 21:38:02 2022 1

原创 中文纠错(Chinese Spelling Correct)最新技术方案总结

目录1 传统技术2 深度学习技术2.1 FASPell2.1.1 技术方案2.1.2 优点和缺点2.2 SpellGCN2.2.1 技术方案2.2.2 优点和缺点2.3 Soft-Mask BERT2.3.1 技术方案2.3.2 优点和缺点2.4 Stand-alone2.4.1 技术方案2.4.2 优点和缺点2.5 Spelling Correction as a Foreign Language2.5.1 技术方案2.5.2 优点和缺点2.6 Hierarchical Attention2.6.1

2021-03-20 15:49:23 10099 3

原创 经典CTR预估模型:LR, FM, FFM, Wide&Deep, DeepFM, DSSE 算法对比总结

目录1 LR1.1 原理1.2 优点1.3 缺点2 FM (Factorization Machines)2.1 多项式回归模型2.2 为什么FM两两特征交叉的权重参数学习由n2n^2n2减少到n×kn\times kn×k?2.3 FM模型的时间复杂度如何从O(kn2)O(kn^2)O(kn2)降低到O(kn)O(kn)O(kn)?3 FFM3.1 引入Field-aware3.2 为什么权重数量为n×k×fn\times k \times fn×k×f,计算复杂度为k×n2k\times n^2k×n2

2021-01-17 22:30:31 1717

原创 噪声对比估计NCE (Noise-contrastive estimation)采样方法,提高训练速度,解决源码中正label个数必须相等问题

目录1 目的2 tensorflow源码解读3 batch正样本不一致解决方案3.1 pad label对应为负样本3.2 pad label 对应loss mask4 参考1 目的降低模型计算复杂度的一种方法2 tensorflow源码解读3 batch正样本不一致解决方案3.1 pad label对应为负样本3.2 pad label 对应loss mask4 参考Noise-contrastive estimation: A new estimation principle foru

2020-12-12 14:59:52 1199

原创 计算机求导方法:自动微分(Automatic Differentiation)

目录目的参考目的1.归纳求导方法2. tensorflow怎么求导3. 平时自己定义的loss,怎么求导的,有没有有些loss没法求导的?参考https://www.youtube.com/watch?v=wG_nF1awSSYhttps://www.youtube.com/watch?v=ZGSUrfJcXmAhttps://www.youtube.com/watch?v=sq2gPzlrM0ghttps://www.youtube.com/watch?v=boIOgsu-Q8Ehtt

2020-11-29 12:16:24 7523 1

原创 NLP中的attention机制总结

目录1 attention机制原理2 attention类型2.1 依据attention是否参数化可导分类2.1.1 Soft attention2.1.2 Hard attention2.2 依据输入是否全部用来计算attention向量分类2.2.1 Global attention2.2.2 Local attention2.3 依据attention实现功能分类2.3.1 Self Attention2.3.1.1 原理2.3.1.2 典型代表2.3.1.3 代码实现2.3.2 Multi-Hea

2020-11-01 14:58:44 2103 1

原创 seq2seq model: beam search和attention机制理解

目录1 seq2seq模型结构1.1 Encoder和Decoder1.1.1 Encoder1.1.2 Decoder1.2 attention机制1.2.1 为什么需要attention1.2.2 attention结构1.2.3 attention计算方法2 模型训练2.1 数据格式2.2 优化目标函数2.3 代码实现3 模型预测3.1 beam search3.1.1 为什么需要beam search3.1.2 与viterbi区别1 seq2seq模型结构1.1 Encoder和Decoder

2020-10-21 20:54:06 1293

原创 关键词提取(keyword extraction)技术

目录1 统计方法(Statistical Method)1.1 TF1.2 TFIDF1.3 YAKE2 图方法(Graph Based Approaches)2.1 TextRank2.1.1 PageRank2.2 SingleRank2.3 TopicRank2.4 PositionRank3 语义模型(Semantic Models)1 统计方法(Statistical Method)基于统计方法的核心思想就是计算文本中每个term的分值,有了分值,就可以对所有的term进行排序,然后获取top

2020-10-08 10:31:10 9013

原创 Deep Learning模型中常见的optimizer优化器算法总结

目录1. 优化算法在DL中的挑战1.1 优化算法定义1.2 挑战:局部最小值与鞍点2. 常见的优化算法2.1 梯度下降 (gradient descent)2.1.1 梯度下降算法可以降低目标函数值原因2.1.2 学习率设定2.2 随机梯度下降 (stochastic gradient descent)2.3 批量随机梯度下降 ( batch gradient descent)2.4 Momentum2.5 Adagrad2.6 RMSProp2.7 Adadelta2.8 Adam1. 优化算法在DL中

2020-10-01 11:20:24 1991

原创 Sigmoid,tanh,Relu,Leaky ReLu,ELU,GeLu 激活函数理解

为什么需要激活函数?SigmoidtanhReluLeaky ReluRectifier Nonlinearities Improve Neural Network Acoustic ModelsEluFAST AND ACCURATE DEEP NETWORK LEARNING BYEXPONENTIAL LINEAR UNITSGeluGAUSSIAN ERROR LINEAR UNITS (GELUS)参考文献添加链接描述添加链接描述......

2020-05-29 14:12:42 8465 1

原创 层次softmax (hierarchical softmax)理解

基于word2vec模型学习词的语义向量表示,已在NLP许多任务中都发挥了重要的作用,接下来对词向量学习中的hierarchical softmax的应用做一个分析和学习CBOW(Continuous Bag-of-Word)One-word context假设我们vocabulary size 为VVV,hidden layer 神经元个数为NNN,假设我们只有一个上下文单词,则根据这个上下文单词预测目标词,类似于一个bigram model,如下图所示:输入是一个one-hot编码的vecto

2020-05-17 17:29:29 8544 2

原创 多约束条件线性规划求解最优解 (python编程实现)

多约束条件线性规划求解最优解

2024-08-27 11:42:02 881 1

原创 Agent理解以及基于大模型LLM的智能体Agent框架LlamIndex和LangChain介绍

Agent介绍以及如何基于LlamIndex和LangChain构建自己的Agent应用

2024-07-31 12:13:06 395

原创 英语语法大全:英语基本成分+从句分析+时态分析

英语语法讲解:基本成分,从句分析,时态讲解

2024-07-12 19:54:13 248

原创 基于pycharm对每个工程配置python环境

基于pycharm的python环境配置

2024-07-01 19:16:18 507

原创 股票核心因子解读以及如何从接口获取股票数据信息

股票因子解读,如何从接口获取股市数据信息

2024-06-20 18:46:20 1103

原创 如何找到好的量化交易策略

量化交易策略选择

2024-05-27 19:06:06 782

原创 热门大模型汇总+GPU系列型号+GPU云服务提供商

目前热门的LLM,以及GPU序列介绍,市场上云服务提供商

2024-05-15 11:23:25 487

原创 李飞飞团队关于2024年人工智能发展报告总结 (Artificial Intelligence Index Report)

2024人工智能AI发展报告

2024-05-13 19:34:49 1337

原创 量化交易基础知识

量化交易基础知识,如何成为一个量化交易员

2024-05-10 18:53:55 487

原创 投资a股以及美股指数基金5年后的收益率对比以及个人投资理财心得

投资理财分享

2024-05-10 09:55:39 606

原创 为何冥想 (meditation)以及冥想的意义

冥想的意义

2024-04-27 19:59:23 892

原创 GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4论文内容解读

GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4论文内容解读

2024-02-05 17:05:58 6744 6

原创 脂肪酸:饱和脂肪酸与不饱和脂肪酸

脂肪酸是一类有机化合物,它们是生物体内的重要组成部分,具有多种生理功能。脂肪酸是由长链碳氢化合物组成的羧酸,通常包括一个羧基(COOH)和一个碳氢链。它们是生物体内构建脂质(如甘油三酯、磷脂等)的基本组成单元。

2024-01-25 14:20:31 586

原创 权威的健康养生与医学基础知识科普学习信息汇总

内容包含了很多比较详细的食品营养介绍以及健康教育指导。如今,面对信息过载特别是现在的信息充满了错误和噪声,很容易产生误导。所以,我们需要在一些专业权威的网址上收集信息并进行学习。对于无医学背景的人,若想要从事大健康相关工作,可以考虑考取如下几个国家认证的专业证书。

2024-01-24 18:57:17 956

原创 LLM大模型 (chatgpt) 在搜索和推荐上的应用

本博文给出了大模型在搜索和推荐的一些基础应用,主要针对现有搜索和推荐存在的问题,借助大模型强大的推理能力以及通用知识能力进行一些优化。但大模型在搜索和推荐上的应用还有更多更好的方式,👏🏻欢迎有新兴趣的小伙伴能够一起交流和学习。

2023-11-17 19:22:25 3405 1

原创 如何在spark中使用scikit-learn和tensorflow等第三方python包

这个参数的目的是告诉Spark应用程序在YARN的主节点上使用特定的Python解释器,即./python37/python37/bin/python3.7。这个参数的目的是将名为python37.zip的压缩文件解压到YARN集群节点,并将其路径设置为python37,以供Spark应用程序使用。-n python37: -n参数后跟着你想要创建的环境的名称,这里是python37。python=3.7: 这是要在环境中安装的Python版本的规范。-q: 这个选项用于减少命令的输出,即以静默模式运行。

2023-10-27 16:08:43 1418

原创 ChatGPT请不要和打工人争辩今天星期几

今天是2023年6月2号没错,但是是星期几却回答错了,打工人对今天星期几,特别是星期五绝对是不会记错的。所以,没怀疑今天星期几😁。那chatgpt为什么回答错了呢?,chatgpt给出了正确的代码,但是却给出了错误的结果,从运算过程到最终结果,chatgpt目前来看完全通过这种生成模式是很难保证这种计算的唯一性的。哈哈,给出的逻辑没啥毛病,但是呢,还是认定今天是星期四。chatgpt不是万能的,特别是需要做数值运算这些唯一性答案任务的时候,chatgpt是还不足以通过生成式这种方式代替算术进行运算,

2023-06-06 15:03:49 823 1

原创 亚马逊运营:A9排序算法与A10排序算法对比

亚马逊运营,A10, A9算法

2023-03-31 17:44:22 1159

原创 ChatGPT fine tune微调+prompt介绍

提供了非常强大能力,能够基于学到的广泛知识,给出问题解决方案,合理的建议,实施步骤,商业计划,人物描写等等。所以我们可以合理写prompt,更有意思的答案。哈哈,看起来不够大胆,于是进一步发问给出的这些答案果然更加激动人心。

2023-03-29 20:02:05 31315 17

原创 no display name and no $display environment variable plt.show()

linux plt.show no display

2023-03-02 16:28:09 373

原创 import matplotlib.pyplot segmentation fault

matplotlib segment falut

2023-03-02 16:08:12 154

原创 Vim常用命令汇总

vim指令大全

2023-02-28 17:51:14 528

原创 Vim解决问题的方式

vim高效命令

2022-12-13 15:32:24 956

原创 LTR (Learning to Rank): 排序算法 poitwise, pairwise, listwise常见方案总结

目录1 类型1.1 poitwise1.2 pairwise1.3 listwise2 lamdarank2.1 原理2.2 tensorflow代码实现3 LambdaMART3.1 原理3.2 代码实现1 类型1.1 poitwise1.2 pairwise1.3 listwisetensorflow rank code2 lamdarank2.1 原理https://zhuanlan.zhihu.com/p/2706089872.2 tensorflow代码实现3 LambdaMA

2022-11-17 10:45:00 4152

原创 2022 ACL accepted论文集资料以及关键词分析

2022 ACL 论文集合关键词分析

2022-10-10 12:02:33 1507 3

原创 如何用vim解决python代码出现缩进不一致,报错:IndentationError:unindent does not match any outer indent

vim解决python代码出现缩进不一致问题

2022-07-12 19:06:46 1341

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除