自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(308)
  • 收藏
  • 关注

原创 将你的电脑变成 AI 电脑 - Jan.ai

JAN.AI:将你的电脑变为 AI 电脑的开源工具JAN.AI 是一款开源工具,可以将你的电脑变成一台 AI 电脑。它拥有以下几个主要特点:本地运行 AI 模型: JAN.AI 允许你直接在本地设备上运行像 LLaMa 或 Mistral 这样的 AI 模型,提高隐私性。 不需要互联网连接,所有数据和处理都在本地进行。 下载的模型完全离线,确保对话、偏好和模型使用都在你的电脑上,安全、可...

2024-08-14 11:24:25 113

原创 48岁从教转行数据科学 - 听听基肖尔老师的故事@PWSkillsTech

Kishore Sir,一位48岁的资深人士,成功从大学教师转型为数据科学家,展现了令人惊叹的职业转变。他拥有丰富的IT经验,曾在Java开发领域工作两年半,并参与过项目管理和销售等工作。之后,他获得了MBA学位,并在商学院担任教师,教授市场营销和IT课程,同时也教授统计学,包括Excel统计和基础Python和机器学习。Kishore Sir对数据科学的兴趣源于与朋友的交流。朋友推荐了I-neu...

2024-08-14 11:18:13 27

原创 从机械工程、UPSC 考试候选人到谷歌数据分析师学徒的成功转型故事

从机械工程到数据分析师:Hariharan的职业转型故事Hariharan 来自印度泰米尔纳德邦,从小在班加罗尔和钦奈接受教育。他高中成绩优异,顺利进入泰米尔纳德邦的知名大学 PSET,并选择了机械工程专业。然而,在大学学习过程中,他逐渐意识到机械工程并非他的兴趣所在。在探索其他领域的过程中,Hariharan 对经济学、政治学和历史产生了兴趣,并发现印度公务员考试 (UPSC) 的内容与他的兴...

2024-08-14 11:11:30 159

原创 1- 让我们学习 Langchain - 我们将学习什么和演示项目

LangChain 系列更新:从入门到进阶,构建生成式 AI 应用本系列教程将重点介绍 LangChain 的最新更新,从基础到高级内容,帮助你使用付费 API(例如 LLM API)或开源 LLM 模型构建生成式 AI 应用。教程将通过实际项目演示如何构建端到端的应用,并利用 LangChain 生态系统进行部署。教程重点: 讲解 LangChain 文档:为了方便理解,教程将结合 Lan...

2024-08-14 11:09:27 130

原创 加速模式下的 Pandas - 使用 Nvidia Rapids Cudf 库在 GPU 上使用 Pandas

这段文字介绍了 NVIDIA 推出的 Pandas 加速器模式 - Rapid CODF,它利用 GPU 来加速 Pandas 库的分析代码,从而显著提升处理大型数据集的速度。主要内容: Pandas 的局限性: 当处理大型数据集时,Pandas 的内置方法效率低下,需要很长时间才能完成分析。 Rapid CODF 的优势: Rapid CODF 利用 GPU 加速 Pandas 库...

2024-08-14 11:08:25 196

原创 DSA 系列 - 让我们成为堆栈数据结构的专家

栈:数据结构算法系列之 Python 实现本视频将继续数据结构算法系列,使用 Python 语言讲解栈的概念。视频内容包括: 栈的定义: 栈是一种有序的元素集合,元素的添加和删除操作始终在同一端进行,被称为栈顶。 栈的应用: 视频中将介绍一些栈的实际应用场景,例如日常生活中的例子。 栈的实现: 视频将使用 Python 语言对栈进行实现,并讲解相关函数,包括: push(...

2024-08-14 11:07:24 147

原创 5 数值摘要和使用 IQR 统计处理异常值

这段文字主要介绍了统计学中的两个重要概念:五数概括和如何使用四分位距处理异常值。五数概括指的是对数据分布的五个关键值进行总结,分别是:最小值、第一四分位数(25%分位数)、中位数、第三四分位数(75%分位数)和最大值。分位数代表数据分布中某个位置的数值,例如,50%分位数就是中位数,它将数据分成上下两半,50%的数据小于它,50%的数据大于它。视频讲解了如何计算分位数,并以一个简单的例子说...

2024-08-14 11:05:52 132

原创 3 个月机器学习学习路线图,包含视频和资料更新

这段文字介绍了一个数据科学学习路线图,作者建议用三个月时间学习,每天投入四到五个小时。这个路线图涵盖了三个主要部分:第一部分:Python编程语言- 作者推荐学习作者制作的Python视频课程,包含50多个视频,并提供专门针对印度语用户的课程。- 课程内容涵盖数据科学项目所需的编程基础知识,包括模块化编程等。第二部分:统计学- 统计学是数据科学的基础,作者建议学习作者制作的统计学视频课程。...

2024-08-14 11:03:46 21

原创 4-Langchain 系列-使用 Langchain Chromadb 和 FAISS 开始使用 RAG 管道

LangChain 系列:RAG 管道详解本系列视频将深入探讨 RAG(Retrieval Augmented Generation,检索增强生成)管道,这是利用 LLM 模型解决实际问题的关键技术之一,也是当前企业应用中非常重要的技能。RAG 的核心功能:从各种数据源(如 PDF、MD、TXT、数据库等)中检索信息并生成相关内容。视频内容: 从基础到高级:完整实现 RAG 管道,...

2024-08-14 11:01:41 80

原创 开源贡献的力量 - 50+ 由您贡献的端到端数据科学项目

视频摘要:开源贡献的力量与“完整数据科学资料库”该视频作者首先感谢观众的支持,并强调视频内容的价值在于分享开源贡献的力量,以及观众们在该项目中的贡献。作者重点介绍了其在GitHub上创建的“完整数据科学资料库”,该库包含了大量数据科学相关学习资料,包括视频、手写笔记、代码等,涵盖了从Python基础、统计学、SQL、数据分析、机器学习、深度学习到生产部署、AWS、MLOps等各个方面。该库已获得...

2024-08-14 11:01:10 157

原创 设备端 AI 入门:使用 ObjectBox 向量数据库和 LangChain 进行 RAG

ObjectBox 向量数据库:为边缘设备打造的离线优先、高性能解决方案本视频将介绍一个名为 ObjectBox 的向量数据库,并展示如何使用它构建完整的、生成式 AI 文档问答应用。ObjectBox 的主要优势在于: 离线优先:无需互联网连接,即使在边缘设备(如手机、物联网设备、工业机器等)上也能流畅运行。 高性能:比其他向量数据库快 10 倍,数据吞吐量高,响应速度快。 资...

2024-08-14 11:00:08 184

原创 使用 AutoScraper 库自动化网页抓取

这段文字介绍了使用 `autoscrapper` 库自动抓取网页数据的过程。作者以 Github 仓库页面为例,展示了如何使用 `autoscrapper` 轻松获取仓库标题、星数和关注者数量等信息。主要内容: 问题陈述: 作者想要从 Github 仓库页面抓取标题、星数和关注者数量。 解决方法: 使用 `autoscrapper` 库,该库可以自动识别网页元素并提取所需信息。 ...

2024-08-14 10:59:07 31

原创 大数据工程路线图与 FAANG 面试流程

数据工程师在科技巨头的面试流程:Shashank的分享这段文字主要讲述了Shashank,一位拥有五年大数据行业经验的资深数据工程师,分享他在Expedia、亚马逊等科技巨头公司面试数据工程师职位的心得。首先,Shashank介绍了自己的背景,他目前在Expedia担任数据工程师,之前曾在Paytm、麦肯锡和亚马逊工作过。他表示自己很乐意分享自己在数据工程师领域的经验,希望能帮助观众受益。...

2024-08-14 10:58:36 30

原创 使用 Nvidia Rapids cuML 库在 GPU 上训练机器学习算法

NVIDIA Rapids 和 CUML 库详细摘要该视频教程介绍了 NVIDIA Rapids 的 CUML 库,该库可以帮助用户在 GPU 上训练机器学习算法。主要内容: 介绍 NVIDIA Rapids: NVIDIA Rapids 是一个由 NVIDIA 开发的软件套件,包含一系列库,用于加速数据科学和机器学习工作流程。 CUML 库: CUML 是 Rapids 中的一个...

2024-08-14 10:58:04 20

原创 一个让数据科学速度提升 10 倍的 Python 包

Mito:用电子表格的方式加速数据科学任务Mito 是一个强大的 Python 包,它可以简化和加速数据科学任务,尤其是涉及数据探索和特征工程的部分。通过提供一个类似电子表格的界面,Mito 让用户可以直观地操作数据,并自动生成相应的 Python 代码。视频内容概要:视频展示了 Mito 的基本功能,包括: 数据导入: 可以从 CSV 文件、数据库(例如 Snowflake)以及...

2024-08-14 10:51:22 63

原创 使用机器学习管道进行超参数调优

这段文字介绍了如何使用 Python 和 Escalon 库构建机器学习管道,并进行超参数调优。主要内容包括:1.管道构建: - 使用 `make_pipeline` 和 `Pipeline` 类创建管道,将数据预处理步骤和机器学习模型组合在一起。 - 使用 `SimpleImputer` 填充缺失值,使用 `ColumnTransformer` 对数值和类别特征进行不同处理。 - 使用 `...

2024-08-14 10:46:44 208

原创 如何获得 1cr 数据科学家薪资?

这篇文章是一名数据科学家在视频中表达的观点。作者一开始以“1K数据科学家薪资”为标题,目的是测试标题对点击率的影响,并以此引出视频的核心内容:技能才是关键。作者强调,高薪资并非最重要的目标,真正重要的是提升技能,积累项目经验,并不断学习新知识。他以“三傻大闹宝莱坞”电影为例,说明拥有才华和能力的人最终会获得成功。作者也谈到了现实情况,指出所谓的高薪资往往包含股票、期权等其他成分,最终到手的薪资...

2024-08-14 10:45:42 15

原创 重要建议:人工智能正在快速发展,现在就开始学习人工智能吧,不要等到太迟。...

这段文字主要讲述了作者对人工智能的看法,并建议大家开始学习人工智能,并将它融入日常生活。作者认为,人工智能正在迅速发展,未来将会有很多新的应用场景出现。学习人工智能不仅是为了找到相关工作,更重要的是提高个人效率,并能帮助人们更好地处理数据,发掘更多信息。作者强调,学习人工智能并不一定需要通过他的频道或付费课程,有很多免费的开源资源可供学习。他鼓励大家无论从事哪个行业,都能尝试将人工智能融入工作和生...

2024-08-14 10:41:34 27

原创 体验元宇宙:这些平台 - 什么是元宇宙?- 区块链

元宇宙:一个虚拟世界,无限可能这篇文章介绍了元宇宙的概念,并解释了它与传统游戏平台的区别。元宇宙的核心概念: 虚拟星球: 相当于一个虚拟世界,你可以用自己的虚拟形象(avatar)在其中探索、互动,完成各种任务。 去中心化: 与传统游戏平台不同,元宇宙没有单一实体控制,用户可以共同制定规则。 无限可能: 你可以参与游戏、购买虚拟土地、甚至骑龙飞行,尽情探索这个虚拟世界。参与...

2024-08-14 10:40:32 68

原创 如何用 Python 加速 10 倍学习财务分析

用 MytoLibrary 进行财务分析:以模拟范德堡基金经理为例本视频介绍如何使用 MytoLibrary 进行财务分析,以模拟范德堡基金经理为例。MytoLibrary 是一款强大的工具,可以帮助用户通过表格数据进行分析并生成相应的 Python 代码。视频首先介绍了 MytoLibrary 的功能,并展示了如何将 CSV 文件和数据库中的数据导入到 Myto 表格中。Myto 会自动生成相...

2024-08-14 10:40:01 282

原创 完整的数据科学简历库和指南,适用于机器学习工程师、数据分析师,包含 20 多份简历。...

数据科学/分析简历制作指南本视频主要讲解数据科学和数据分析岗位简历制作的技巧,并提供大量相关简历模板供参考。视频内容主要涵盖以下几个方面:1. 简历内容: 技能: 明确列出掌握的技能,并根据具体职位描述进行调整。例如,Python, ML, NLP, Generative AI等。 职责: 详细描述在过去工作或项目中的角色和职责。 项目: 重点突出参与的端到端项目,包括项目目...

2024-08-14 10:36:55 101

原创 教程 2 - 使用 Python 的 Pyspark - Pyspark 数据帧 - 第 1 部分

PySpark 数据帧操作教程(第一部分)本教程将深入介绍 PySpark 数据帧的概念,并演示如何使用它进行数据操作。教程分为两部分,本部分将涵盖以下内容:1. PySpark 数据帧简介- PySpark 数据帧是类似于 Pandas 数据帧的结构化数据存储方式,用于处理大型数据集。- 教程将介绍如何使用 PySpark 读取 CSV 文件并创建数据帧。- 会演示如何查看数据类型(sch...

2024-08-14 10:35:53 167

原创 观看此视频,破解任何数据科学家统计学面试 - 理解 PDF、PMF 和 CDF

这段文字主要讲述了数据科学面试中,统计学知识的重要性,尤其是描述性统计和推断性统计。作者强调了描述性统计中,概率密度函数(PDF)、概率质量函数(PMF)和累积分布函数(CDF)是面试中常见的考察点。作者解释了这三个函数的区别: PDF 主要应用于连续型随机变量,用来描述随机变量在某个特定值附近的概率密度。 PMF 主要应用于离散型随机变量,用来描述随机变量取某个特定值的概率。 C...

2024-08-14 10:26:30 61

原创 第一部分-学习使用自定义数据微调LLM的道路-量化、LoRA、QLoRA深入直觉

本视频将深入探讨模型量化技术,这是在使用自定义数据集微调LLM模型时不可或缺的一部分。视频将解释量化的理论基础,包括全精度、半精度以及数据类型如何影响模型存储。视频将重点介绍以下内容: 量化: 解释模型量化概念,以及为什么在微调LLM模型时需要进行量化。 精度: 解释全精度和半精度,并说明它们与数据类型和模型存储之间的关系。 校准: 介绍模型量化中的校准技术,并探讨其在解决量化问...

2024-08-14 10:26:00 72

原创 面向 MLOPS 工程师的 6 大 CI/CD 工具

视频摘要:MLOps工程师常用的CI/CD工具该视频介绍了MLOps工程师常用的六种CI/CD工具,并推荐了其中三个最值得学习的工具:1.Jenkins: 开源CI/CD工具,高度可定制,拥有庞大的用户社区和开发者群体,被超过3000家公司使用,包括Facebook、Twitch、Udemy、LinkedIn等。2.Travis CI: 云端CI/CD工具,在开源项目中很受欢迎,易于设置,...

2024-08-14 10:22:24 146

原创 DataPrep 库 - 立即执行更快的 EDA

Data Prep 库介绍:轻松进行数据探索性分析本视频介绍了名为 Data Prep 的 Python 库,该库可以帮助用户轻松地进行数据准备和探索性数据分析 (EDA)。视频重点介绍了 EDA 功能,并展示了如何使用 Data Prep 库在一行代码内完成 EDA。主要内容: Data Prep 库的功能: 数据准备: 该库可以帮助用户连接各种 API(如 YouTube、金...

2024-08-14 10:20:18 191

原创 教程 7 - 使用 Python 的 Pyspark | Databricks 简介

Databricks 平台简介:PySpark 学习的理想环境本视频将介绍 Databricks 平台,它是学习和使用 PySpark 的绝佳环境。Databricks 是一个开放且统一的数据分析平台,涵盖数据工程、数据科学和机器学习分析。Databricks 的主要特点: 支持 Apache Spark: Databricks 平台允许用户使用 PySpark 或其他语言与 Apach...

2024-08-14 10:19:16 116

原创 5分钟内学习如何使用 Langchain Open AI 查询 PDF

使用LangChain和OpenAI API查询PDF文件本教程介绍如何使用LangChain和OpenAI API查询PDF文件,并通过提问的方式获取信息。步骤:1.安装必要库: LangChain、OpenAI、PyPDF2、PhiCPU、TickToken。 PyPDF2 用于读取PDF文件。 PhiCPU 用于创建令牌。 TickToken 也是用于创建令牌的库。2....

2024-08-14 10:15:40 140

原创 2-Langchain 系列 - 使用 Langchain 和 Ollama 构建使用付费和开源 LLM 的聊天机器人

视频摘要:本视频是“Lantern系列”的最新更新,主要内容是如何利用付费API和LLM创建聊天机器人应用程序,以及如何将开源LLM集成到应用程序中。视频重点介绍了Lantern生态系统,并强调了使用Hugging Face集成开源LLM的方法,但视频会重点使用Lantern组件。视频包含了实际操作步骤,包括: 创建虚拟环境: 使用`conda create -p venv python=...

2024-08-14 10:14:38 83

原创 机器学习与人工智能黑客马拉松榜单:迈向数据科学的25个顶级赛事

数据科学竞赛:迈向数据科学的捷径这段视频主要介绍了由 Vitrivel 撰写的关于数据科学和 AI 竞赛的文章。文章列出了 25 个面向所有人的机器学习和 AI 竞赛,旨在帮助大家迈向数据科学领域。视频内容概括: 竞赛的意义: 竞赛可以帮助学习者接触各种机器学习和 AI 的实际应用场景,为构建完整的项目提供灵感和数据集,同时还能获得奖金,对学生来说尤其有激励作用。 竞赛平台: 视频...

2024-08-14 10:14:07 71

原创 简化 LLMOps 并用分钟构建 LLM 管道

Vext:简化LLM操作,无需编码构建LLM管道这段文字介绍了一种名为Vext的平台,它可以帮助用户简化LLM操作,并无需编写代码构建LLM管道。主要内容: LLM操作的挑战: 构建LLM应用需要整合多个工具和API,例如模型、外部数据源、向量数据库等,需要配置和管理大量信息,耗时且复杂。 Vext的解决方案: Vext平台提供一站式服务,整合了各种LLM所需工具和API,包括模型...

2024-08-14 10:07:54 219

原创 Meta 如何改变生成式 AI 的未来

Meta或将改变生成式AI的未来:开源模型的优势与劣势这段文字主要讨论了Meta公司在生成式AI领域的最新动作以及开源模型的优劣势。核心观点: Meta通过开源其大型语言模型Llama和Llama 2,为开发者提供了使用、微调和部署这些模型的机会,这可能改变生成式AI的未来。 开源模型的优势在于: 允许开发者在数据隐私方面拥有更大的控制权,特别适合金融等对数据安全要求较高的领域。 ...

2024-08-14 10:07:23 159

原创 Ollama Web UI 教程 - 开源模型的 ChatGPT 替代品

Olama: 开源大语言模型的本地运行利器Olama 是一款开源工具,允许用户在本地运行各种开源大型语言模型(LLM),包括 Lama353、MistralGamma、MistralLama2 和 CodeGamma 等。它不仅支持本地运行,还提供生产环境部署功能。Olama 提供两种交互方式:1.命令行界面 (CLI): 用户可以通过命令行与 Olama 交互,例如 `olama run L...

2024-08-14 10:05:51 41

原创 伯努利分布 - 伯努利分布的均值、方差和标准差

这段文字介绍了伯努利分布,并与其他概率分布(如高斯分布、标准正态分布、对数正态分布)进行了对比。伯努利分布的特点: 只有两种可能的输出结果,通常表示为成功(1)和失败(0)。 每个试验都是独立的,结果不受之前试验的影响。 成功概率为 P,失败概率为 1-P。伯努利分布的应用: 抛硬币:正面为成功,反面为失败。 掷骰子:掷出特定点数为成功,其他点数为失败。 药物试验:患者对药物有反应...

2024-08-14 10:04:18 166

原创 使用 Nvidia NIM 开始构建 RAG 文档问答系统,结合 Nvidia NIM 和 Langchain

NVIDIA NIMM: 简化生成式 AI 部署的革命性工具这段文字介绍了 NVIDIA 最近发布的 NIMM(NVIDIA Inference Microservices),它是一个用于部署 AI 模型的推理微服务集,旨在革新生成式 AI 在企业中的部署方式。NIMM 的主要优势: 提供多种 AI 模型: 包括 LLM(大型语言模型)、LIM(大型图像模型)、多模态模型以及 NVIDI...

2024-08-14 09:59:41 131

原创 Autoviz - 使用一行代码自动可视化任何数据集

Autoviz 库:快速数据可视化利器这段视频介绍了一个名为 Autoviz 的库,它可以快速、自动地对任何大小的数据集进行可视化分析。 主要功能: 自动生成各种可视化图表: 无论是连续变量还是类别特征,Autoviz 都能根据数据类型自动生成相应的图表,例如散点图、直方图、箱线图、概率图等。 简单易用: 只需一行代码,就能自动生成所有可视化图表,无需编写复杂的代码。 快速高效...

2024-08-14 09:56:32 154

原创 讨论机器学习中所有类型的特征变换

视频摘要:特征转换技术本视频主要讲解机器学习和深度学习中常用的特征转换技术。开头视频开头,作者首先宣布了公司 I Neuron 的一些员工,包括作者本人和他的家人,都检测出新冠阳性。作者呼吁大家重视疫情,注意防护,尽量避免外出,并祝愿所有感染的员工早日康复。特征转换的必要性视频接着解释了特征转换的必要性。作者指出,不同的特征通常使用不同的单位进行测量,比如身高用厘米、体重用公斤,而图像则...

2024-08-14 09:55:30 224

原创 所有类型的交叉验证,Python 一键搞定!

视频摘要:机器学习中的交叉验证技术本视频讲解机器学习中常用的交叉验证技术。视频首先介绍了交叉验证的重要性,特别是它在超参数调优中的应用。然后,视频通过一个癌症数据集的例子,详细讲解了四种常用的交叉验证技术:1.介绍数据集: 视频使用了一个包含多个特征的癌症数据集,目标是预测癌症类型(良性或恶性)。2.数据预处理: 视频对数据进行了预处理,包括识别并删除无用列,以及查看数据是否平衡。3.交...

2024-08-14 09:54:59 274

原创 使用 Transformer BERT 的自定义训练问答模型

视频摘要:自定义问答模型训练本视频讲解如何使用Transformers库进行自定义问答模型训练。 视频内容概括: 介绍: 视频将使用Transformers库进行自定义问答模型训练,并介绍了之前视频中关于Transformers库的应用,包括实现和文本分类。 工具: 视频将使用一个名为Simple Transformers的库,该库基于Hugging Face的Transforme...

2024-08-14 09:52:23 143

原创 任何数据科学或生成式人工智能角色的基础和基础都非常重要 - 从基础开始

这段文字主要讨论了在快速发展的AI领域,学习基础知识的重要性。作者指出,尽管大型语言模型(LLM)和各种先进技术层出不穷,但扎实的理论基础依然是不可或缺的。作者通过自身经历和一个订阅者的面试经历说明了这一点。尽管面试职位与自然语言处理(NLP)相关,但面试官却重点考察了基础的编程语言、机器学习概念、算法、数学原理、特征工程和统计学知识。作者强调,即使在AI快速发展的时代,深入理解基础知识依然是掌握...

2024-08-14 09:49:18 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除