学习笔记
文章平均质量分 84
Python算法实战
这个作者很懒,什么都没留下…
展开
-
神仙打架!秋招面了十多家,成功拿下虾皮offer
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天分享粉丝群一文,希望对后续找工作的有所帮助。更多技术交流&面经学习,可以文末加入我们交流群。原创 2024-03-12 21:40:57 · 1118 阅读 · 0 评论 -
2024年,算法岗哪个方向更有前景
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天给大家分享一下我的心得,希望对后续找工作的有所帮助。这几年AI风口变的太快了,有个粉丝后台私信我,问我:刚研一,后面想做算法岗,哪个方向最好就业。算法岗方向确实多:传统NLP、CV、搜推广、大模型、风控、自动驾驶甚至包括量化等等。今天花十分钟简单讲讲这个问题。原创 2024-03-12 11:20:16 · 1123 阅读 · 0 评论 -
【算法岗】腾讯、美团、百度、华为等面试复盘来了
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天我整理一下一位社群粉丝的算法岗面试题,分享给大家,希望对后续找工作的有所帮助。现在距离秋招结束也好长一段时间了,今天总结一下自己在秋招中的一些经验和教训,希望可以帮助到学弟学妹们。先介绍一下我自己的情况,我本科211,硕士985,软件工程专业。原创 2024-02-27 21:14:15 · 1056 阅读 · 0 评论 -
一文图解 Transformer,小白也看得懂(完整版)
它们都是有助于计算和理解注意力机制的抽象概念。请继续阅读下文的内容,你就会知道每个向量在计算注意力机制中到底扮演什么样的角色。计算自注意力的第二步是计算得分。假设我们在为这个例子中的第一个词“Thinking”计算自注意力向量,我们需要拿输入句子中的每个单词对“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多重视句子的其它部分。这些分数是通过打分单词(所有输入句子的单词)的键向量与“Thinking”的查询向量相点积来计算的。原创 2023-12-18 15:54:39 · 267 阅读 · 0 评论 -
教你5步学会用Llama2:我见过最简单的大模型教学
在这篇博客中,Meta 探讨了使用 Llama 2 的五个步骤,以便使用者在自己的项目中充分利用 Llama 2 的优势。同时详细介绍 Llama 2 的关键概念、设置方法、可用资源,并提供一步步设置和运行 Llama 2 的流程。Meta 开源的 Llama 2 包括模型权重和初始代码,参数范围从 7B 到 70B。Llama 2 的训练数据比 Llama 多了 40%,上下文长度也多一倍,并且 Llama 2 在公开的在线数据源上进行了预训练。Llama2 参数说明图Llama2 流程说明图。原创 2023-12-03 15:02:04 · 729 阅读 · 0 评论 -
基于 Pytorch 的从零开始的目标检测 | 附源码
现在我们已经介绍了目标检测的基本原理,并从头开始实现它,您可以将这些想法扩展到多对象情况,并尝试更复杂的模型,如 RCNN 和 YOLO!原创 2023-10-17 23:26:48 · 95 阅读 · 0 评论 -
基于 LSTM 进行多类文本分类(附源码)
NLP 的许多创新是如何将上下文添加到词向量中。一种常见的方法是使用循环神经网络。以下是循环神经网络的概念:他们利用顺序信息。他们可以捕捉到到目前为止已经计算过的内容,即:我最后说的内容会影响我接下来要说的内容。RNNs 是文本和语音分析的理想选择。最常用的 RNNs 是 LSTM。来源:https://colah.github.io/posts/2015-08-Understanding-LSTMs/以上是循环神经网络的架构:“A”是一层前馈神经网络。原创 2023-10-10 21:37:19 · 649 阅读 · 0 评论 -
基于 Python+DenseNet121 算法模型实现一个图像分类识别系统
DenseNet(Densely Connected Convolutional Networks)是一种卷积神经网络(CNN)架构,2017年由Gao Huang等人提出。该网络的核心思想是密集连接,即每一层都接收其前面所有层的输出作为输入。DenseNet121是该家族中的一个特定模型,其中121表示网络的总层数。原创 2023-09-29 16:20:59 · 255 阅读 · 0 评论 -
基于 Python+Django 实现一个电商购物网站系统
为了让网站操作简单、流畅,我们将实现以下功能:管理员登录与管理:管理员可以登录后台,对用户和商品进行增删改查的操作。用户系统:普通用户可以进行注册和登录。购物车功能:用户在选择商品后,可以添加到购物车,并随时调整商品数量。商品详情:用户点击商品,可以查看其详细描述、价格、库存等信息,并可进行评论。数据可视化:通过Echart,我们可以生成直观的数据图表,例如销售统计、用户行为分析等。原创 2023-09-29 15:59:57 · 561 阅读 · 0 评论 -
2w+深度梳理!全网最全NLP面试题总结!
一、动机篇1.1 什么是文本摘要?1.2 文本摘要技术有哪些类型?二、抽取式摘要篇2.1 抽取式摘要是怎么做的?2.1.1 句子重要性评估算法有哪些?2.1.2 基于约束的摘要生成方法有哪些?2.1.3 TextTeaser算法是怎么抽取摘要的?2.1.4 TextRank算法是怎么抽取摘要的?2.2 抽取式摘要的可读性问题是什么?三、压缩式摘要篇3.1 压缩式摘要是怎么做的?四、生成式摘要篇4.1 生成式摘要是怎么做的?原创 2023-09-24 16:12:02 · 856 阅读 · 2 评论 -
NLP实战 | BERT文本分类及其魔改(附 Python 代码)
本文主要介绍了两种文本分类模型:BERT文本分类基础模型,及基于和的魔改模型。在作者实际的有关文本分类的工作中取得了F1值超越Bert基础模型近4%的效果。原创 2023-09-03 17:42:18 · 677 阅读 · 0 评论 -
深度学习建模预测全流程(附Python代码)
机器学习机器学习的核心是通过模型从数据中学习并利用经验去决策。进一步的,机器学习一般可以概括为:从数据出发,选择某种模型,通过优化算法更新模型的参数值,使任务的指标表现变好(学习目标),最终学习到“好”的模型,并运用模型对数据做预测以完成任务。数据、模型、学习目标、优化算法。深度学习深度学习是机器学习的一个分支,它是使用多个隐藏层神经网络模型,通过大量的向量计算,学习到数据内在规律的高阶表示特征,并利用这些特征决策的过程。keras简介。原创 2023-08-20 08:56:31 · 580 阅读 · 0 评论 -
一文归纳算法调参炼丹技巧
贝叶斯优化思想简单可归纳为两部分:高斯过程(GP):以历史的调参信息(Observation)去学习目标函数的后验分布(Target)的过程。采集函数(AC):由学习的目标函数进行采样评估,分为两种过程:1、开采过程:在最可能出现全局最优解的参数区域进行采样评估。2、勘探过程:兼顾不确定性大的参数区域的采样评估,避免陷入局部最优。原创 2023-08-20 08:44:16 · 100 阅读 · 0 评论 -
一文概览神经网络的优化算法
这样反复循环迭代,直至满足条件。在预测参数下一次的位置之前,我们已有当前的参数和动量项,先用(θ−γvt−1)下一次出现位置的预测值作为参数,虽然不准确,但是大体方向是对的,之后用我们预测到的下一时刻的值来求偏导,让优化器高效的前进并收敛。Momentum算法在梯度下降中加入了物理中的动量的概念,模拟物体运动时候的惯性,即在更新的时候在一定程度上保留之前更新的方向,同时利用当前batch的梯度对之前的梯度进行微调,这样一来,可以在一定程度上增加稳定性,从而学习的更快,并且有一定的摆脱局部最优的能力。原创 2023-08-20 08:39:40 · 221 阅读 · 0 评论 -
一文深度讲解模型过拟合问题
过拟合是指模型只过分地匹配特定训练数据集,以至于对训练集外数据无良好地拟合及预测。其本质原因是模型,该信息没有代表性,在训练集上虽然效果很好,但未知的数据集(测试集)并不适用。原创 2023-08-20 08:35:41 · 260 阅读 · 0 评论 -
一文讲透神经网络的激活函数
对于是分类任务的输出层,二分类的输出层的激活函数常选择sigmoid函数,多分类选择softmax;回归任务根据输出值确定激活函数或者不使用激活函数;对于隐藏层的激活函数通常会选择使用ReLU函数,保证学习效率。其实,具体选择哪个函数作为激活函数没有一个固定的准确的答案,应该要根据具体实际问题进行验证(validation)。原创 2023-08-20 08:30:09 · 90 阅读 · 0 评论 -
一文详细归纳 Python 特征生成方法(全)
创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。业内常说数据决定了模型效果上限,而机器学习算法是通过数据特征做出预测的,好的特征可以显著地提升模型效果。这意味着通过特征生成(即从数据设计加工出模型可用特征),是特征工程相当关键的一步。本文从特征生成作用、特征生成的方法(人工设计、自动化特征生成)展开阐述并附上代码。原创 2023-08-20 08:24:51 · 335 阅读 · 0 评论 -
一文详细归纳算法数据增强方法
数据增强(Data Augmentation)是在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。其原理是,通过对原始数据融入先验知识,加工出更多数据的表示,有助于模型判别数据中统计噪声,加强本体特征的学习,减少模型过拟合,提升泛化能力。如经典的机器学习例子–哈士奇误分类为狼:通过可解释性方法,可发现错误分类是由于图像上的雪造成的。通常狗对比狼的图像里面雪地背景比较少,分类器学会使用雪作为一个特征来将图像分类为狼还是狗,而忽略了动物本体的特征。原创 2023-08-20 08:21:13 · 1202 阅读 · 0 评论 -
一篇白话讲透机器学习概念
机器学习看似高深的术语,其实就在生活中,古语有云:“一叶落而知天下秋”,意思是从一片树叶的凋落,就可以知道秋天将要到来。这其中蕴含了朴素的机器学习的思想,揭示了可以通过学习对“落叶”特征的经验,预判秋天的到来。机器学习作为人工智能领域的核心组成,是非显式的计算机程序学习数据经验以优化自身算法,以学习处理任务的过程。原创 2023-08-20 08:15:50 · 76 阅读 · 0 评论 -
ChatGPT代码解释器与Jupyter Notebook合体,编码能力更强了
Chapyter 是一个 JupyterLab 扩展,将 GPT-4 无缝连接到你的编码环境,并且具有一个代码解释器,可以将自然语言描述翻译为 Python 代码并自动执行。它可以帮助开发者完成各种复杂的编码任务、自动执行 AI 生成的代码,还能够让开发者进行原位调试、自定义 Prompt,甚至保护了开发者与代码的隐私性,避免数据被利用。如下图所示,通过在代码生成中添加 --history 或 -h 标志,Chapyter 可以使用之前的执行历史和输出,为加载的 IRIS 数据集生成相应的可视化代码。原创 2023-08-13 15:31:39 · 108 阅读 · 0 评论 -
VS Code上跑ChatGPT,程序员神器更丝滑了
AI 时代,许多开发者都已经上手了各式 AI 编程工具,至于评价则千差万别。但整体而言,AI 编程的代码正越来越多出现在当下的各种技术栈中,其口碑也在逐渐攀升。随着 GPT4 的出现,AI 编程正在迈入新的台阶。近期一个名为“Continue”的开源项目爆火出圈,它是一个 VS Code 扩展,能够让 ChatGPT 在你的 IDE 中运行,为开发者编程提供了极大便利。原创 2023-08-13 15:29:55 · 118 阅读 · 0 评论 -
8个最常见、常考的聚类算法实战及原理讲解
这些聚类方法各有特点和使用场景,需要根据具体的数据特点和需求选择合适的方法。同时,这些方法也可以结合使用或者与其他算法结合使用,以实现更好的聚类效果。原创 2023-07-15 09:23:53 · 1121 阅读 · 0 评论 -
又有一个大模型火了!
现在 AI 技术越来越强大,我们要谨记:技术是把双刃剑,勿用技术作恶!原创 2023-07-09 15:36:03 · 794 阅读 · 1 评论 -
AI圈炸了!微软解封Transformer,序列长度扩展10亿+
此外,虽然有强大的性能,但可能仍需要进行更多的测试和验证。在LONGNET这项工作中,微软的研究员将一种称为“扩张注意力”(dilated attention)的新颖概念引入到Transformer 模型中,从根本上改变了模型处理序列的方式。好的文章离不开粉丝的分享、交流、推荐,资料干货、资料分享、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。就像,在人群中既能关注到附近的人,也能关注到远离的人,但不需要与每个人单独交谈。原创 2023-07-09 14:55:07 · 105 阅读 · 0 评论 -
AI,正在疯狂进化,金融大模型来了
大家好,现在开源社区,更新速度最快的就是 AI 相关的项目了,几天不看,就又多了一些非常优秀的项目。原创 2023-06-23 14:49:52 · 337 阅读 · 0 评论 -
VS Code 1.79 发布
例如,如果你在 Windows 上使用截图工具截图,你可以在 Markdown 文件中按**粘贴键,VS Code 将从剪贴板数据创建一个新的图像文件,并插入一个 Markdown 图像链接到新文件。与其浪费时间先手动将文件复制到您的工作区,然后添加指向它的链接,现在你只需将文件拖放到或粘贴到你的 Markdown 中即可。如果你的 notebook 已打开,搜索控件会根据它在 notebook editor 中的显示方式显示结果(而不是搜索原始源文件的内容)。如果你喜欢默认分支的不同名称,则可以使用。原创 2023-06-13 22:33:00 · 96 阅读 · 0 评论 -
Kaggle时序建模案例:预测水资源可用性
新的时间特性是周期性的,特征月周期为每年1至12个月。虽然每个月之间的差值在一年内增加1,但在两年内,月特性从12(12月)跳到1(1月)。分析数据集是否包含空值,绘制的时间序列显示似乎有一些零值,我们将用nan值替换它们,然后再填充它们。自相关函数(ACF): P=滞后周期,P帮助调整用于预测序列的拟合线,P对应于MA参数。一些时间序列模型,如ARIMA,假设基础数据是平稳的。时间序列分解涉及到将一个序列看作水平、趋势、季节性和噪声成分的组合。基本统计:拆分时间序列,比较每个分区的均值和方差。原创 2023-06-13 22:32:34 · 391 阅读 · 0 评论 -
Kaggle ICR 赛题 LightGBM基础思路
赛题使用的balance log loss,为了与赛题保持一致,可以自定义指标。当然也可以自定义目标函数。由于数据集存在类别分布不均衡的情况,因此建议按照原信息或比赛标签进行划分验证集。原创 2023-06-13 22:28:43 · 351 阅读 · 0 评论 -
3 个令人惊艳的 AI 项目,开源了!
过去一周,从外界看,AI 貌似放缓了进步速度,但只有身处其中的人才能知道,AI 一直没有停下进化的脚步。以下是 GitHub 过去一周,诞生的多个实用的 AI 开源项目,今天给大家做下介绍。原创 2023-06-10 23:11:15 · 572 阅读 · 0 评论 -
百度大模型算法实习岗上岸经验
大家好,2023找暑期实习期间也算是历经坎坷,最后去了百度做大模型相关工作,虽然本硕均为计算机科班但本身实力尚浅,硬实力如力扣也并不像很多人早早开始准备,所以整个过程并不是很顺利,这篇文章主要和大家分享一下我的心得体会。原创 2023-06-10 22:41:16 · 242 阅读 · 0 评论 -
微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调
如果您也对人工智能和计算机视觉全栈领域感兴趣,欢迎与我交流,一起探讨更多有趣的话题!原创 2023-06-08 22:33:58 · 258 阅读 · 0 评论 -
大手笔!微软一口气在 GitHub 开源了 5 个技术教程。。
此外,还将通过开发南瓜价格预测、美食分类、酒店情感分析等多个项目,带你了解机器学习的实际使用。在课程插图方面,也让微软得到了不少加分。以下图为例,微软讲师通过插图的方式,更为直观、更具趣味性的像我们展示了机器学习的发展历史:由上图我们可知,机器学习起源自 1950 年代,阿兰图灵让机器学会思考的想法,在后续的不断迭代演变过程中,才成为我们今天口中所讨论的机器学习。类似的插图及详细内容介绍,大家可以去该课程的 GitHub 仓库一窥究竟。原创 2023-06-08 22:27:20 · 196 阅读 · 0 评论 -
pyInstaller 翻身了!完美打包 Python 脚本的方案
达到目的的关键在于用命令行打包时自动生成的hello.spec,它的本质是一个python文件,有两种运行模式:pyinstaller hello.spec 会使用 spec 文件中的配置进行打包pyinstaller hello.py 根据命令行参数自动生成 spec 文件,再依据使用 spec 文件中的配置进行打包pyinstaller 在打包时,实际上是在做了一些准备工作后,直接运行了spec文件里的 Python 代码。相比于给命令行添加参数,直接编辑spec。原创 2023-06-08 22:24:21 · 923 阅读 · 0 评论 -
神器 JupyterLab 4.0 震撼发布
总的来说,JupyterLab 提供了更丰富的功能和更灵活的用户界面,使用户能够更好地组织和管理笔记本和其他相关工具。每个标签对应一个笔记本。JupyterLab 是 Jupyter Notebook 的下一代版本,它提供了更强大的功能和更灵活的用户界面,6月6日,官方发布了JupyterLab 4.0的说明,并且说该版本是下一个主要的版本。在JupyterLab 4中,还包含了一个新的扩展管理器,这样就可以直接从PyPI安装,不需要再本地的编译了,这样对于我们安装也方便很多。原创 2023-06-08 22:19:39 · 102 阅读 · 0 评论 -
妙不可言,Pandas 加载数据的方法和技巧真香啊
作为分隔值的分隔符(即匹配一个或多个空格、制表符、换行符等空白字符作为分隔符),然后将剪贴板上的数据分割成表格数据。通过 URL 来获取 CSV 数据,可以省去了需要先将 CSV 文件保存在本地这一步骤。如果我们想要将 JSON 数据转换成表格数据,使其扁平化,我们可以用下面的方法来实现。有时候我们在处理 JSON 数据的时候,会发现 JSON 数据通常都是嵌套好多层。接下来,让我们尝试读取更复杂的 JSON 数据,该数据嵌套了列表和字典。关于 pandas 导入 csv 数据,使用的是下面这个方法。原创 2023-05-30 23:13:52 · 89 阅读 · 0 评论 -
9款超级实用 VSCode 插件,让 Python 编程轻松愉悦
Python Preview是一个适用于VSCode的Python代码预览插件,可以将Python代码转换为漂亮的HTML页面,并在浏览器中进行预览。通过该插件,程序员可以在VSCode中方便地预览Python代码的运行结果和效果,提高代码开发的效率和可读性。它会自动审查和改进代码,这样就可以花更多时间专注于编写新代码,减少清理代码的时间。Python Indent是一个适用于VSCode的Python缩进插件,可以自动调整Python代码的缩进,保持代码的格式一致。TODO 代码表示未来将要进行的操作。原创 2023-05-30 23:12:37 · 9873 阅读 · 0 评论 -
skforecast:一款解决时序预测的神库
时间序列是一系列按照时间顺序排列的数据,时间序列的预测过程包括通过对时间序列的过去行为进行建模(自回归)或使用其他外部变量来预测时间序列的未来值。本文介绍了如何使用Scikit-learn回归模型来进行时间序列的预测。具体而言,它介绍了Skforecast,一个简单的库,包含了将任何Scikit-learn回归模型适应于预测问题所需的类和函数。原创 2023-05-30 23:00:23 · 583 阅读 · 0 评论 -
用 Python+AI 让小朋友的手绘图跳起来(附完整源码)
这个项目目前仅在macOS和Ubuntu系统上测试过,Windows系统会出问题。本人使用的是Ubuntu20.04系统,基本没什么问题。大致就是通过一下几个流程进行实现的。通过物体检测识别人形使用角色mask从场景中提升人形通过「装配」为动画做准备三维运动捕捉制作2D人物动画接下来小F就来教大家如何去部署。以上操作,就能通过AI实现儿童绘画跳舞。感兴趣的小伙伴们,可以自行去尝试,给小朋友提供快乐。相关文件及代码都已上传,公众号回复【儿童绘画】即可获取。原创 2023-05-28 22:05:17 · 1245 阅读 · 0 评论 -
ChatGPT 又开始大规模封号了...
邮件大意是,OpenAI 发现了你的 ChatGPT 账号存在可疑活动,为了保障平台安全,已自动退款并取消你的 ChatGPT Plus 订阅,账号无法再使用 ChatGPT Plus 服务。从上次 4 月 2 号之后,这是又一波新的封号潮,不过与上次不同的是,这次躺枪的,大部分是 Plus 或者使用虚拟卡充值了 API Key 的用户。我估计接下来每隔一段时间,OpenAI 便会对所有账户进行一次排查,每次排查的条件不同,那些不符合平台使用条件的账号,都会开始被逐步封禁。原创 2023-05-28 21:43:24 · 150 阅读 · 0 评论 -
LaWGPT:一款可以用来维权的AI大模型
大家好,大模型 fine-tune,在各个领域百花齐放。上两天发过一篇文章,介绍了一个基于 LLaMA 训练得到的 AI 医生咨询助手。看不少小伙伴都感兴趣,咱今天再介绍一个法律领域的 LaWGPT。原创 2023-05-25 22:31:15 · 1941 阅读 · 4 评论