
精选(人工智能)-中级
文章平均质量分 79
本专栏主要涵盖最新人工智能、区块链领域的初级和中级技术文章,均为博主精心总结、紧跟前沿、逐步优化、学以致用。文章重点处均有颜色标注,方便阅读和查看。仅【学生身份】且【在读状态】可向博主申请免费查看资格。
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
一个处女座的程序猿
人工智能硕博生,拥有十多项发明专利(6项)和软著(9项),包括国际期刊SCI内多篇论文,多个国家级证书(2个国三级、3个国四级),曾获国内外“人工智能算法”竞赛(包括国家级省市级等,一等奖5项、二等奖4项、三等奖2项)证书十多项,以上均以第一作者身份,并拥有省市校级个人荣誉证书十多项。目前也是国内知名博主,连续3年获CSDN十大博客之星,荣获达摩院评测官、阿里社区/CSDN社区/51CTO/华为社区等十多个开发者社区专家博主荣誉,曾受邀阿里/华为/谷歌等社区采访-评审-论坛几十次。截止2022年,AI领域粉丝超100万,文章阅读量超5000万。正在撰写《AI算法最新实战》一书,目前已30万字
展开
-
LLM之Colossal-LLaMA-2:源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr
LLM之Colossal-LLaMA-2:源码解读(init_tokenizer.py文件)实现基于源词表的扩展(中文标记的新词汇)进而实现持续预训练、(init_model.py文件)实现过计算均值来扩展模型的嵌入层以适应新的词汇表,然后保存扩展后的模型、(prepare_pretrain_dataset.py文件)将原始数据集进行处理和切片并保存为JSONL格式和 Arrow格式目录一、源码解读(init_tokenizer.py文件)实现基于源词表的扩展(中文标记的新词汇)进而实现持续预训原创 2023-09-27 23:33:20 · 901 阅读 · 0 评论 -
LLMs之LLaMA-2:源码解读(tokenizer.py文件)基于SentencePiece库执行文本的分词和编码/解码操作—在文本生成和处理过程中,将文本字符串与token ID列表之间进行相互
LLMs之LLaMA-2:源码解读(tokenizer.py文件)基于SentencePiece库执行文本的分词和编码/解码操作—在文本生成和处理过程中,将文本字符串与token ID列表之间进行相互转换,以便与深度学习模型进行交互目录源码解读(tokenizer.py文件)基于SentencePiece库执行文本的分词和编码/解码操作—在文本生成和处理过程中,将文本字符串与token ID列表之间进行相互转换,以便与深度学习模型进行交互# 1、创建日志记录器logger用于记录程序运行时的原创 2023-09-03 13:36:45 · 1116 阅读 · 0 评论 -
LLMs之LLaMA-2:源码解读(generation.py文件)—Llama类实现基于预训练模型的文本生成功能(基于单轮提示实现文本补全/多轮对话生成)=build函数构建Llama实例+init
LLMs之LLaMA-2:源码解读(generation.py文件)—Llama类实现基于预训练模型的文本生成功能(基于单轮提示实现文本补全/多轮对话生成)=build函数构建Llama实例+init函数初始化模型和词表对象+generate函数基于提示文本生成文本序列+sample_top_p辅助函数实现了控制随机性的核心采样策略top-P目录源码解读(generation.py文件)# 0、初始化Llama类,加载预训练LLM模型。# 1、自定义一些数据内容,例如Message、C原创 2023-07-16 01:11:53 · 656 阅读 · 0 评论 -
LLMs之LLaMA-2:源码解读(model.py文件)模块化思想实现了一个完整的Transformer模型(多头注意力机制+前馈神经网络,RMSNorm+RoPE+并行计算+缓存机制提升效率)
LLMs之LLaMA-2:源码解读(model.py文件)模块化思想实现了一个完整的Transformer模型(多头注意力机制+前馈神经网络,RMSNorm+RoPE+并行计算+缓存机制提升效率)目录源码解读(model.py文件)实现了一个Transformer模型(多头注意力机制+前馈神经网络+旋转嵌入)# 1、定义ModelArgs数据类配置模型参数(用于配置Transformer模型的结构和超参数):用于存储模型的配置参数,包括模型维度、层数、注意力头数、词原创 2023-09-01 00:00:03 · 451 阅读 · 0 评论 -
ML之FE:特征工程/数据预处理—数据清洗—异常值处理技术之对【数值型】字段实现数值截断技术并前后对比可视化
ML之FE:特征工程/数据预处理—数据清洗—异常值处理技术之对【数值型】字段实现数值截断技术并前后对比可视化。原创 2023-04-27 00:13:08 · 803 阅读 · 0 评论 -
NLP之TextSimil:基于两份文档(词频)依次利用词频向量/TF-IDF向量表示法并结合余弦相似度实现文本相似度计算实现代码
NLP之TextSimil:基于两份文档(词频)依次利用词频向量/TF-IDF向量表示法并结合余弦相似度实现文本相似度计算实现代码目录基于两份文档(词频)依次利用词频向量/TF-IDF向量表示法并结合余弦相似度实现文本相似度计算实现代码# 1、定义两份文档# 2、数据预处理# 3、计算相似度实现代码基于两份文档(词频)依次利用词频向量/TF-IDF向量表示法并结合余弦相似度实现文本相似度计算实现代码# 1、定义两份文档# 2、数据预处理CountVecto原创 2023-06-21 19:32:33 · 827 阅读 · 0 评论 -
LLMs之ChatGLM2:基于ChatGLM Efficient Tuning(微调工具包)实现对ChatGLM2进行LoRA微调并进行推理测试图文教程之详细攻略
LLMs之ChatGLM2:基于ChatGLM Efficient Tuning(微调工具包)实现对ChatGLM2进行LoRA微调并进行推理测试图文教程之详细攻略目录1、硬件要求和Python依赖2、代码和模型权重下载3、基于微调工具包实现模型训练与推理1、硬件要求和Python依赖硬件要求模型部署电脑硬件要求:FP16半精度-13GB显存INT8量化 -10GB显存INT4量化 -6GB 显存也可以选择CPU部署,甚至可原创 2023-08-27 23:50:17 · 2066 阅读 · 0 评论 -
LLMs之ChatGLM2:ChatGLM2-6B本地部署之单机推理(API/CLI/GUI)、低成本部署(GPU量化部署/CPU及其量化部署/Mac部署/多卡部署)、有限资源下高效微调(全参/P-t
LLMs之ChatGLM2:ChatGLM2-6B本地部署之单机推理(API/CLI/GUI)、低成本部署(GPU量化部署/CPU及其量化部署/Mac部署/多卡部署)、有限资源下高效微调(全参/P-tuning v2)、模型评估和推理之图文教程之详细攻略目录一、配置基础环境及其注意事项二、模型微调:让通用走向专业三、模型评估和推理一、配置基础环境及其注意事项第一步、检测软硬件环境设备和原创 2023-08-27 23:36:44 · 962 阅读 · 0 评论 -
LLMs之LLaMA-2:基于云端进行一键部署对LLaMA2模型实现推理(基于text-generation-webui)执行对话聊天问答任务、同时微调LLaMA2模型(配置云端环境【A100】→下载
LLMs之LLaMA-2:基于云端进行一键部署对LLaMA2模型实现推理(基于text-generation-webui)执行对话聊天问答任务、同时微调LLaMA2模型(配置云端环境【A100】→下载数据集【datasets】→加载模型【transformers】→分词→模型训练【peft+SFTTrainer+wandb】→基于HuggingFace实现云端分享)之图文教程详细攻略目录一、基于云端(在Google Colab上)进行一键部署并推理二、基于云端(在Google Co原创 2023-07-30 22:33:30 · 1280 阅读 · 0 评论 -
LLMs之LLaMA-2:基于LocalGPT利用LLaMA-2模型实现本地化的知识库(Chroma)并与本地文档(基于langchain生成嵌入)进行对话问答图文教程+代码详解之详细攻略
LLMs之LLaMA-2:基于LocalGPT利用LLaMA-2模型实现本地化的知识库(Chroma)并与本地文档(基于langchain生成嵌入)进行对话问答图文教程+代码详解之详细攻略目录第一步,新建conda环境,并下载LocalGPT项目文件夹第二步,解读代码第三步,修改run_localGPT.py文件代码第四步,运行代码实现提问第一步,新建conda环境,并下载LocalGPT项目文件夹LLMs之LocalGP原创 2023-07-13 00:33:06 · 1762 阅读 · 0 评论 -
LLMs:Text generation web UI/text-generation-webui(一款帮助LLMs实现本地化部署和微调的GUI界面式工具,非CLI式)的简介、安装、使用方法之详细攻略
LLMs:Text generation web UI(一款帮助LLMs实现本地化部署和模型微调的GUI界面式工具,非CLI式)的简介、安装、使用方法之详细攻略目录Text generation web UI的简介Text generation web UI的安装Text generation web UI的使用方法Text generation web UI的简介Text genera原创 2023-07-30 22:35:16 · 1069 阅读 · 0 评论 -
LLMs之LLaMA-2:基于text-generation-webui工具来本地部署并对LLaMA2模型实现推理执行对话聊天问答任务(一键安装tg webui+手动下载模型+启动WebUI服务)、同
LLMs之LLaMA-2:基于text-generation-webui工具来本地部署并对LLaMA2模型实现推理执行对话聊天问答任务(一键安装tgwebui+手动下载模型+启动WebUI服务)、同时微调LLaMA2模型(采用Conda环境安装tgwebui+PyTorch→CLI/GUI下载模型→启动WebUI服务→GUI式+LoRA微调→加载推理)之图文教程详细攻略目录基于Text generation web UI工具实现对话聊天大模型应用一、本地部署实现推理原创 2023-08-20 07:53:45 · 1710 阅读 · 1 评论 -
LLMs之spaCy:利用spaCy管道训练大模型案例—对预训练的BERT、XLNet和GPT-2实现图文教程之详细攻略
LLMs之spaCy:利用spaCy管道训练大模型案例—对预训练的BERT、XLNet和GPT-2实现图文教程之详细攻略目录利用spaCy管道对预训练的BERT、XLNet和GPT-2实现利用spaCy管道对预训练的BERT、XLNet和GPT-2实现官方文章:spacy-transformers:🛸用于预训练的BERT、XLNet和GPT-2的spaCy管道-面圈网加载在大量文本上预训练的大型通用模型,然后开始使用针对您的问题的标签在较小的数据集上进行训练,实现于文本分原创 2023-06-10 02:10:15 · 815 阅读 · 0 评论 -
AI之KE:Knowledge Engineering知识工程的简介、发展、应用案例之详细攻略
AI之KE:Knowledge Engineering知识工程的简介、发展、应用案例之详细攻略目录Knowledge Engineering知识工程的简介0.1、What0.2、How0.3、Why1、知识工程过程的5个活动2、知识图谱的应用Knowledge Engineering知识工程的发展1、前知识工程时期——1950-1970时期:图...原创 2019-07-22 07:41:20 · 4535 阅读 · 0 评论 -
ML之RF:kaggle比赛之利用titanic(泰坦尼克号)数据集建立RF模型对每个人进行获救是否预测实现代码
ML之RF:kaggle比赛之利用titanic(泰坦尼克号)数据集建立RF模型对每个人进行获救是否预测。原创 2018-08-16 22:08:35 · 11733 阅读 · 4 评论 -
NLP之GloVe:LSA/GloVe的简介、使用方法、案例应用之详细攻略
NLP之GloVe:LSA/GloVe的简介、使用方法、案例应用之详细攻略目录GloVe的简介GloVe的案例应用GloVe的简介LSA/GloVe算法的概述LSA简介LSA全称Latent semantic analysis,隐含语义分析。它算是主体模型topic model的一种,对于LSA的直观认识就是文章里有词语,而词语是由不同的主题生成的。比如一篇文章包含词语:计算机,另一篇文章包含词语:电脑;在一般的向量空间来看,这两篇文章不相关,但是在LSA看来,这两个原创 2020-07-02 10:41:48 · 5574 阅读 · 1 评论 -
ML:结构化数据(文本/图像)计算相似度常用十类方法之余弦相似性计算的三种python代码实现
ML:结构化数据(文本/图像)计算相似度常用十类方法之余弦相似性计算的三种python代码实现目录相似度计算之余弦相似度计算相似度计算之余弦相似度计算输出结果Cosine_SimilarityDIY,计算余弦相似度:0.8660254037844387Cosine_SimilarityBydot,计算余弦相似度:0.8660254037844387Cosine_SimilarityBydot,计算余弦相似度:0.8660254037844387三种python代码实原创 2023-06-12 02:12:43 · 1199 阅读 · 0 评论 -
成功解决OSError: [E050] Can‘t find model ‘en_trf_bertbaseuncased_lg‘. It doesn‘t seem to be a Python pac
成功解决OSError: [E050] Can't find model 'en_trf_bertbaseuncased_lg'. It doesn't seem to be a Python package or a valid path to a data directory.目录解决问题解决思路解决方法解决问题OSError: [E050] Can't find model 'en_trf_bertbaseuncased_lg'. It doesn't seem to b原创 2023-06-09 21:39:40 · 1520 阅读 · 0 评论 -
RDBMS之SQL:SQL语言的各种方言的简介(MySQL/Hive SQL/PQL/OracleSQL/SQLite影响力排序)、主流语言的对比之详细攻略
RDBMS之SQL:SQL语言的各种方言的简介(MySQL/Hive SQL/PQL/OracleSQL/SQLite影响力排序)、主流语言的对比之详细攻略目录SQL语言的各种方言的简介1、MySQL/Hive SQL/PQL/OracleSQL/SQLite影响力排序MySQL、Hive SQL与Microsoft SQL Server在语法、数据类型、函数、运算符上的区别SQL语言的各种方言的简介请根据近十年的使用人数和影响力,对以下SQL语言进行排序,Hive S原创 2023-05-27 21:44:57 · 737 阅读 · 0 评论 -
成功解决TypeError: type torch.cuda.HalfTensor not available. Torch not compiled with CUDA enabled.
成功解决TypeError: type torch.cuda.HalfTensor not available. Torch not compiled with CUDA enabled.目录解决问题解决思路解决方法解决问题_C._set_default_tensor_type(t) TypeError: type torch.cuda.HalfTensor not available. Torch not compiled with CUDA enabled.解决思原创 2023-06-02 00:59:11 · 2275 阅读 · 2 评论 -
ML:机器学习之模型监控阶段—模型稳定性分析的简介、常用的监控指标(CSI/PSI)、提高模型稳定性(通用方法/线性模型场景/树类模型场景)的策略之详细攻略
ML:机器学习之模型监控阶段—模型稳定性分析的简介、常用的监控指标(CSI/PSI)、提高模型稳定性(通用方法/线性模型场景/树类模型场景)的策略之详细攻略目录模型稳定性分析的简介提高模型稳定性的策略模型稳定性分析的简介1、模型稳定性分析的概述简介模型稳定性分析是指评估模型在不同数据集上的性能稳定性的过程,尤其是指模型部署之后,在实际生产环境中的模型稳定性。在实际应用中,模型面临着不同的数据分布、样本规模、特征空间等多种变化,这些变化都可能影响模型的性能。因此,需要原创 2022-06-12 23:58:38 · 3017 阅读 · 0 评论 -
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略目录MetaCost算法的简介MetaCost算法的案例应用MetaCost算法的简介MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的概述:基分类器训练→计算错误代价→训练元模型→预测与调整痛点 一般决策树算法更偏重于大类,追求总的分类准确率。而MetaCost认为应该考虑每个类的分类效果,而不是总的分类效果,主要是因为每个类别被误分类的代价原创 2023-04-22 23:35:22 · 1283 阅读 · 0 评论 -
ML之XGBoost:Rabit(XGBoost并行库)的简介、使用方法、案例应用之详细攻略
ML之XGBoost:Rabit(XGBoost并行库)的简介、使用方法、案例应用之详细攻略目录Rabit(XGBoost并行库)的简介Rabit(XGBoost并行库)的使用方法Rabit(XGBoost并行库)的案例应用Rabit(XGBoost并行库)的简介简介Rabit是一个用于并行计算的通用库,特别针对梯度提升树(Gradient Boosting Tree)框架XGBoost进行了优化。它提供了一种简单而有效的方式来实现XGBoost在分布式环境中的并行训练和原创 2023-05-13 02:08:46 · 940 阅读 · 0 评论 -
MXNet:PS-Lite(MXNet并行库)的简介、使用方法、案例应用之详细攻略
MXNet:PS-Lite(MXNet并行库)的简介、使用方法、案例应用之详细攻略目录PS-Lite(MXNet并行库)的简介PS-Lite(MXNet并行库)的案例应用PS-Lite(MXNet并行库)的简介简介PS-Lite是MXNet框架(Amazon开发)中的一个分布式并行计算库,它实现了参数服务器(Parameter Server)模型并提供了分布式训练的支持。PS-Lite旨在解决大规模机器学习任务中参数更新和通信的效率和可扩展性问题。意义PS-Lite的意义原创 2023-05-05 23:53:24 · 839 阅读 · 0 评论 -
AutoML:人工智能领域-自动化技术之机器学习自动化技术的简介(预处理→设计算法→训练模型→优化参数)、常用的工具或框架之详细攻略
AutoML:人工智能领域-自动化技术之机器学习自动化技术的简介(预处理→设计算法→训练模型→优化参数)、常用的工具或框架之详细攻略目录自动化机器学习技术的简介自动化机器学习技术常用的工具或框架自动化机器学习技术的简介1、自动化机器学习(预处理→设计算法→训练模型→优化参数)的概述痛点最初的设想来源于研究人员发现,机器学习模型开发实践中通常会消耗大量时间在特征工程、模型选择与超参数调优上。如果能够自动化这个流程,必将大原创 2023-03-26 14:24:22 · 695 阅读 · 0 评论 -
Py之PyODPS:PyODPS(MaxCompute平台上的大数据处理和分析框架)的简介、安装、使用方法之详细攻略
Py之PyODPS:PyODPS(MaxCompute平台上的大数据处理和分析框架)的简介、安装、使用方法之详细攻略目录PyODPS的简介PyODPS的安装PyODPS的使用方法PyODPS的简介 PyODPS是MaxCompute的Python版本的SDK,提供了简单方便的Python编程接口,提供了对MaxCompute对象的基本操作和DataFrame框架,让用户可以轻松地在MaxCompute上进行数据分析。MaxCompute大多数开发都原创 2022-09-11 23:50:07 · 2773 阅读 · 0 评论 -
ML之IF:孤立森林(Isolation Forest )算法的简介、案例应用之详细攻略
ML之IF:孤立森林(Isolation Forest )算法的简介、案例应用之详细攻略目录孤立森林(Isolation Forest )算法的简介孤立森林(Isolation Forest )算法的概述孤立森林(Isolation Forest )算法的案例应用孤立森林(Isolation Forest )算法的简介孤立森林(Isolation Forest )算法的概述简介孤立森林中的 “孤立” (isolation) 指的是 “把异常点从所有样本中孤立出原创 2019-05-06 22:24:05 · 5908 阅读 · 1 评论 -
ML之EL:集成学习/模型融合/构建集成模型的简介(三大层面/四大策略/四大分类)、相关库函数/工具(Scikit-learn框架/PyTorch/TensorFlow框架等)、案例应用之详细攻略
ML之EL:集成学习/模型融合/构建集成模型的简介(三大层面/四大策略/四大分类)、相关库函数/工具(Scikit-learn框架/PyTorch/TensorFlow框架等)、案例应用之详细攻略目录集成学习的简介集成学习的相关库函数/工具集成学习的案例应用集成学习的简介 集成学习(Ensemble Learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的学习效果的一种机器学习方法。它本身不是原创 2018-08-16 18:02:22 · 13643 阅读 · 2 评论 -
ML之EasyEnsemble:EasyEnsemble算法(基于随机欠采样的集成学习算法)的简介、案例应用之详细攻略
ML之EasyEnsemble:EasyEnsemble算法(基于随机欠采样的集成学习算法)的简介、案例应用之详细攻略目录EasyEnsemble集成学习算法的简介1、EasyEnsemble算法(基于随机欠采样的集成学习算法)的概述2、EasyEnsemble算法对比Bagging算法EasyEnsemble集成学习算法的案例应用EasyEnsemble集成学习算法的简介1、EasyEnsemble算法(基于随机欠采样的集成学习算法)的概述简介EasyEns原创 2020-08-25 20:08:05 · 580 阅读 · 0 评论 -
ML:机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法、使用方法之详细攻略
ML:机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法、使用方法之详细攻略目录机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法机器学习算法中偏差(匹配程度+拟合能力)和方差(波动程度+泛化能力)的概述机器学习算法中模型分类期望误差(偏差+方差)的使用方法机器学习算法中模型分类期望误差(偏差+方差)的简介及其解决方法机器学习算法中偏差(匹配程度+拟合能力)和方差(波动程度+泛化能力)的概述机器学习算法中,将模型分类错误的期望error分解原创 2023-05-08 23:59:55 · 1245 阅读 · 0 评论 -
Py之Pycaret:Pycaret的简介、安装、使用方法之详细攻略
Py之Pycaret:Pycaret的简介、安装、使用方法之详细攻略目录Pycaret的简介Pycaret的安装Pycaret的使用方法Pycaret的简介 PyCaret是由机器学习专家Moez Ali于2020年创建的。他是一位在机器学习、数据科学和人工智能领域拥有超过15年经验的专业人士。他创建PyCaret的初衷是帮助数据科学家和机器学习从业者更加高效地进行模型开发和部署。为了简化机器学习工作流程,提高数据科学家的生产力,并让更多的人可以使用原创 2022-06-29 23:33:47 · 1505 阅读 · 0 评论 -
ML之FE:特征工程/数据预处理—【数值型】特征变换/数据变换—广义幂变换之Box-Cox变换的简介、案例应用之详细攻略
ML之FE:特征工程/数据预处理—【数值型】特征变换/数据变换—广义幂变换之Box-Cox变换的简介、案例应用之详细攻略目录广义幂变换之Box-Cox变换的简介广义幂变换之Box-Cox变换的案例应用广义幂变换之Box-Cox变换的简介广义幂变换之Box-Cox变换的概述应用场景回归分析时,通常假设回归方程的残差具有有齐性,即等方差。如果残差不满足齐性,即出现异方差(残差发散),此时就可以通过做Box-Cox变换实现回归方程残差齐性。简介Box-Cox变换是Box和原创 2023-04-23 21:28:51 · 761 阅读 · 0 评论 -
XAI/ML:机器学习模型可解释性之量化特征贡献度(特征重要性)的函数详解(feature_importances_/plot_partial_dependence/permutation_impor
XAI/ML:机器学习模型可解释性之量化特征贡献度(特征重要性)的函数详解(feature_importances_/plot_partial_dependence/permutation_importance)目录1、feature_importances_函数2、plot_partial_dependence函数3、permutation_importance函数1、feature_importances_函数简单来说,每个特征对于提升整个模型的预测能力的贡献原创 2022-05-29 22:27:29 · 3085 阅读 · 0 评论 -
AI之AutoML:H2OAutoML(H2O公司开发)的简介、安装、使用方法之详细攻略
AI之AutoML:H2OAutoML(H2O公司开发)的简介、安装、使用方法之详细攻略目录H2OAutoML(H2O公司开发)的简介H2OAutoML的安装H2OAutoML的使用方法H2OAutoML(H2O公司开发)的简介简介H2O AutoML是H2O.ai公司开发的自动机器学习工具,于2017年正式发布,它用于自动化机器学习模型开发流程,包括特征工程、模型选择、超参优化等。H2O.ai是一家美国人工智能公司,由SriSatish Ambati、Sri Amb原创 2018-05-15 22:50:53 · 10218 阅读 · 1 评论 -
ML:数据科学/机器学习领域经验总结—对于特征个数大于样本量的高维数据集,用什么算法进行预测,效果会更好?
ML:数据科学/机器学习领域经验总结—对于特征个数大于样本量的高维数据集,用什么算法进行预测,效果会更好?目录数据科学/机器学习领域经验总结—对于特征个数大于样本量的数据集,用什么算法进行预测,效果会更好?数据科学/机器学习领域经验总结—对于特征个数大于样本量的数据集,用什么算法进行预测,效果会更好?特征个数大于样本量的数据集被称为高维数据集,这种情况下,传统的机器学习算法容易出现过拟合的现象,因此需要采用一些办法和技巧来提高预测效果。以下是一些常见的方法和技巧:T1、增加样原创 2023-03-29 00:59:10 · 1017 阅读 · 0 评论 -
NLP:自然语言处理技术之NLP技术实践—自然语言/人类语言“计算机化”的简介、常用方法分类(基于规则/基于统计,离散式/分布式)之详细攻略
NLP:自然语言处理技术之NLP技术实践—自然语言/人类语言“计算机化”的简介、常用方法分类(基于规则/基于统计,离散式/分布式)之详细攻略目录自然语言/人类语言“计算机化”的简介—计算机如何表示自然语言自然语言/人类语言“计算机化”的常用方法推荐文章NLP:自然语言处理技术之NLP技术实践—自然语言/人类语言“计算机化”的简介、常用方法分类(基于规则/基于统计,离散式/分布式)之详细攻略NLP:自然语言处理领域常见的文本特征表示/文本特征抽取(本质都是“数字化”原创 2023-02-04 00:29:24 · 2253 阅读 · 1 评论 -
NLP之TF-IDF:VSM向量空间模型(仅关键词组成的浮点数字向量)的简介、TF-IDF(VSM的常用的统计法)简介之详细攻略
NLP之TF-IDF:VSM向量空间模型(仅关键词组成的浮点数字向量)的简介、TF-IDF(VSM的常用的统计法)简介之详细攻略目录VSM向量空间模型(仅关键词组成的浮点数字向量)的简介TF-IDF(VSM的常用的统计法)简介1、TF-IDF的矩阵计算公式VSM向量空间模型(仅关键词组成的浮点数字向量)的简介VSM的背景向量空间模型,Vector Space Model,VSM,由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。把原创 2023-02-03 23:49:11 · 1329 阅读 · 0 评论 -
NLP之Word2Vec:Word2Vec算法的简介(CBOW和Skip-Gram及其对比)、安装、使用方法之详细攻略
NLP之Word2Vec:Word2Vec算法的简介(CBOW和Skip-Gram及其对比)、安装、使用方法之详细攻略目录Word2Vec算法的简介Word2Vec的网络结构简介Word2Vec的安装Word2Vec的案例应用推荐文章NLP之NNLM:NNLM算法(词向量法的始祖)的简介、网络结构、案例应用之详细攻略NLP:Word Embedding词嵌入/word2vec词向量思想方法(一种主流的分布式表示)的简介、使用方法、案例应用之详细攻略原创 2023-02-03 23:00:00 · 1470 阅读 · 0 评论 -
DL之Attention:Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略
DL之Attention:Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略目录Attention机制的起源与盛行及其在长距离有效的原因Attention的概述Attention机制的应用相关文章Paper:翻译并解读《Attention Is All You Need》源自2017年的Google机器原创 2018-10-19 19:50:28 · 12117 阅读 · 1 评论 -
NLP之GPT-3:NLP领域没有最强,只有更强的模型—GPT-3的简介(本质、核心思想、意义、特点、优缺点、数据集、实际价值,模型强弱体现,开源探讨)、安装、使用方法之详细攻略
NLP之GPT-3:NLP领域没有最强,只有更强的模型—GPT-3的简介(本质、核心思想、意义、特点、优缺点、数据集、实际价值,模型强弱体现,开源探讨)、安装、使用方法之详细攻略目录GPT-3的简介GPT-3的安装GPT-3的应用—免费体验API服务推荐文章NLP之GPT-3:NLP领域没有最强,只有更强的模型—GPT-3的简介(本质、核心思想、意义、特点、优缺点、数据集、实际价值,模型强弱体现,开源探讨,GPT系列对比与总结)、安装、原创 2020-08-09 18:23:41 · 26156 阅读 · 3 评论