机器学习
文章平均质量分 89
Python数据开发
这个作者很懒,什么都没留下…
展开
-
我的秋招数据分析岗面经分享(京东,美团,阿里,拼多多,vivo,滴滴)
节前,我们社群组织了一场技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对新手如何入门数据分析、机器学习算法、该如何备战面试、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论,今天我整理了一个同学的数据分析面试题,分享给大家,希望对后续找工作的有所帮助。从八月份开始面试,大约面了十多家互联网公司(京东,美团,阿里,拼多多,vivo,滴滴,陌陌,顺丰)等,最后拿到了京东,美团和vivo的数据分析和商业分析offer。原创 2024-03-02 22:11:01 · 840 阅读 · 0 评论 -
面了快手和字节的数据分析岗,收获满满!
面试就要多思考、多总结、多交流,很多问题都是相似的。从三月份开始投暑期实习,简历挂掉一部分,也陆陆续续面试了十几场,很多公司都泡池子了,三面完不发拒信也不给offer,比如某壳一个实习offer都没发。面试下来,问题基本和以上三场面试类似,还有其他问的比较多的是:你最喜欢/最常用的APP是什么,介绍一下APP的基本业务模式,和同类型app对比一下。对于某项业务或产品,你会选取哪些关键指标。费米问题:估算一下北京地区租房需求;估算一下某地区需要多少电脑维修服务网点?原创 2024-02-29 23:53:52 · 1058 阅读 · 0 评论 -
10个得心应手的数据网站,助你完成数据科学项目
本文将介绍10个获取所需数据的网站,助力数据科学项目。当你的数据对你来说很枯燥或毫无意义时,要激励自己学习数据科学,或做数据科学项目真的很困难。本文将介绍10个得心应手的网站,在这些网站上你可以为数据科学项目获取一些非常棒的数据。本文的目的是为了展示各种可能吸引你的数据。最终,这些网站应该能帮助你找到你关心的数据,做一个很酷的数据科学项目,并以此来获得一份工作。原创 2023-12-25 12:15:07 · 1221 阅读 · 0 评论 -
10个 Python 脚本来自动化你的日常任务
希望你能找到一些新的有趣的东西来让你的日常任务自动化。原创 2023-12-16 15:38:06 · 1260 阅读 · 0 评论 -
利用贝叶斯超参数优化,提升模型效果更科学(附Python代码)
目标函数接受一组超参数C和gamma作为输入,并返回在鸢尾花数据集上使用RBF核的支持向量分类器的负准确性。其中,C是正则化参数,gamma是RBFpoly和sigmoid核的核系数。核系数的详细信息对我们的流程并不关键,可以在这里找到。然后,我们使用load_iris加载鸢尾花数据集,并将数据分为训练集和测试集。数据准备好后,训练支持向量分类器,并返回在测试集上的负准确性。在这一步,我们定义超参数搜索空间的边界。我们创建一个形状为(2, 2) 的NumPy数组bounds。原创 2023-12-11 22:30:43 · 2119 阅读 · 0 评论 -
太良心了!微软面向初学者,开源机器学习、数据科学、AI、LLM
大家好,推荐几个质量上乘且完全免费的微软开源课程,由粉丝小伙伴梳理,分享给大家。原创 2023-12-10 11:11:21 · 1077 阅读 · 0 评论 -
Evidently:一个神奇的Python库,机器学习必备!
Evidently 是一个开源的 Python 工具,旨在帮助构建对机器学习模型的监控,以确保它们的质量和在生产环境运行的稳定性。它可以用于模型生命周期的多个阶段:作为 notebook 中检查模型的仪表板,作为 pipeline 的一部分,或者作为部署后的监控。Evidently 特别关注模型漂移,同时也提供了模型质量检查、数据质量检查和目标漂变监测等功能。此外,它还提供了多种内置的指标、可视化图形和测试,可以轻松地放入报告、仪表板或测试驱动的 pipeline 中。原创 2023-12-10 11:00:14 · 900 阅读 · 0 评论 -
TimeGPT:时序预测领域终于迎来了第一个大模型
首先,TimeGPT是一个预先训练的模型,这意味着可以生成预测,而不需要对数据进行特定的训练。尽管如此,还是可以根据我们的数据对模型进行微调。其次,该模型支持外生变量来预测我们的目标,也就是说可以处理多变量预测任务。最后,使用保形预测,TimeGPT可以估计预测区间。这反过来又允许模型执行异常检测。如果一个数据点落在99%的置信区间之外,那么模型将其标记为异常。所有这些任务都可以通过零样本推理或一些微调来实现,这是时间序列预测领域范式的根本转变。原创 2023-12-03 22:31:12 · 1205 阅读 · 0 评论 -
分享4个工具,轻松搞定PDF和图像中提取文本
大型语言模型已经席卷了互联网,导致更多的人没有认真关注使用这些模型最重要的部分:高质量的数据!本文旨在提供一些有效从任何类型文档中提取文本的技术。本文专注于Pytesseract、easyOCR、PyPDF2和LangChain库。实验数据是一个单页PDF文件,可在以下链接获取:由于Pytesseract和easyOCR可以处理图像,因此在执行内容提取之前需要将PDF文件转换为图像。以下函数以PDF作为输入,并将PDF的每一页作为图像列表返回。原创 2023-12-02 14:53:17 · 2079 阅读 · 0 评论 -
基于财报的次日股票价格涨跌预测方案分享
他们的算法方案主要包括以下几个步骤:数据收集和预处理:他们从公开渠道收集了大量的上市公司财报文本数据,并进行了数据清洗和预处理,包括去除噪声、标记化、分词等。模型构建:他们使用了BERT模型作为基础模型,通过预训练和微调的方式来提取文本的上下文表示。他们只更新BERT模型的最后六层和分类层,并使用交叉熵损失函数进行训练。数据增强:为了增加训练数据的规模,他们额外收集了大量的财报数据,并将其作为训练集,将主办方提供的数据作为验证集。他们通过数据匹配和去重的方式,确保训练集中不包含验证集的数据。原创 2023-11-27 23:46:41 · 824 阅读 · 0 评论 -
这应该是关于回归模型最全的总结了(附原理+代码)
本文将继续修炼回归模型算法,并总结了一些常用的除线性回归模型之外的模型,其中包括一些单模型及集成学习器。保序回归、多项式回归、多输出回归、多输出K近邻回归、决策树回归、多输出决策树回归、AdaBoost回归、梯度提升决策树回归、人工神经网络、随机森林回归、多输出随机森林回归、XGBoost回归。需要面试或者需要总体了解/复习机器学习回归模型的小伙伴可以通读下本文,理论总结加代码实操,有助于理解模型。原创 2023-10-17 23:05:46 · 1147 阅读 · 0 评论 -
专治机器学习面试:机器学习各个算法的优缺点!
今天介绍了 算法 的一些核心的优缺点。另外,更多展现方式以及使用技巧可以从官方文档获取以及实战中领略!喜欢的朋友可以起来!原创 2023-09-19 21:56:27 · 770 阅读 · 0 评论 -
利用 Python PyPDF2库轻松提取PDF文本(及其他高级操作)
当需要从PDF文件中提取文本时,Python中的PyPDF2库是一个非常有用的工具。无论您是需要分析PDF文档中的内容还是需要在文档中搜索特定的信息,PyPDF2都可以帮助您轻松实现这些任务。在本文中,我们将探讨如何使用PyPDF2库提取PDF文件中的文本,并提供一些示例代码来帮助您入门。首先,您需要安装PyPDF2库。原创 2023-09-16 15:08:26 · 2071 阅读 · 2 评论 -
事半功倍,必看这4个Pandas神器
上面的这些包可以在Jupyter Notebook中将dataframe转换为交互式表。Itables 和Qgrid比较轻量,可以让我们快速的查看数据,但是如果你想进行更多的操作,例如生成一些简单的可视化图表,那么Pivottablejs和Pygwalker是一个很好的工具。原创 2023-09-16 14:34:24 · 108 阅读 · 0 评论 -
Python OCR库:自动化验证码识别神器!
在接口自动化工作中,经常需要处理文字识别的任务,而OCR(Optical Character Recognition,光学字符识别)库能够帮助我们将图像中的文字提取出来。Python中有几个常用的OCR库,包括pyocr和EasyOCR。本文将对它们进行比较,并提供一些示例代码来演示它们在实际接口自动化工作中的应用。原创 2023-09-10 23:12:25 · 2274 阅读 · 0 评论 -
Jupyter Notebook 好用在哪?
代码上方的菜单栏提供了操作单元格的各种选项:insert (添加),edit (编辑),cut (剪切),move cell up/down (上下移动单元格),run cells(在单元格中运行代码),interupt (停止代码),save (保存工作),以及 restart (重新启动内核)。在这种情况下,遵循指导方针和最佳实践非常重要,这样可以确保你的代码和 Jupyter Notebooks 被正确标注,以便与你的团队成员保持一致。你可以将你的 Notebook 保存为 7 个选项中的任何一个。原创 2023-09-04 22:53:38 · 1485 阅读 · 0 评论 -
Pandas + ChatGPT 超强组合,pandas-ai :交互式数据分析和处理新方法
ChatGPT、Pandas是强大的工具,当它们结合在一起时,可以彻底改变我们与数据交互和分析的方式。ChatGPT凭借其先进的自然语言处理能力,可以更直观地与数据进行类似人类的交互。而PandasAI可以增强Pandas数据分析体验。通过将复杂的数据操作任务转换为简单的自然语言查询,PandasAI使用户更容易从数据中提取有价值的见解,而无需编写大量代码。这对于那些还不熟悉Python或pandas操作/转换的人来说是一种编程的新方法。原创 2023-05-10 23:09:01 · 2638 阅读 · 0 评论 -
这两个 Python&AI 新项目又火了,已开源
大家好,刚上班,大家干劲如何啊?原创 2023-05-05 22:17:44 · 519 阅读 · 0 评论 -
使用 Python 进行面部和眼睛检测
通过使用 OpenCV,你可以识别面部和眼睛等对象,并使用 Haar 级联算法实时跟踪它们。Haar Cascade 是一种分类器,用于检测其训练对象。我们将使用 Face cascade和 Eyes cascade。你可以使用 Google 查找你可能想要检测的各种 Haar Cascades。原创 2023-03-31 10:54:08 · 755 阅读 · 0 评论 -
特征工程:特征构造以及时间序列特征构造
如果每条数据为一条训练样本,时间变量提取出来的特征可以直接作为训练样本的特征使用。例子:用户注册时间变量。对于每个用户来说只有一条记录,提取出来的特征可以直接作为训练样本的特征使用,不需要进行二次加工。如果每条数据不是一条训练样本,时间变量提取出来的特征需要进行二次加工(聚合操作)才能作为训练样本的特征使用。例子:用户交易流水数据中的交易时间。由于每个用户的交易流水数量不一样,从而导致交易时间提取出来的特征的数据不一致,所以这些特征不能直接作为训练样本的特征来使用。原创 2023-02-20 23:07:40 · 1007 阅读 · 0 评论 -
爱了爱了,这些顶级的 Python 工具包太棒了
Python 语言向来以丰富的第三方库而闻名,今天来介绍几个非常nice的库,有趣好玩且强大!原创 2023-02-08 21:37:10 · 1199 阅读 · 1 评论 -
TODS:一款功能强大的多元时间序列异常检测工具
数据处理时间序列处理特征分析检测算法(detection algorithms)和强化模块这些模块所提供的功能包括常见的数据预处理、时间序列数据的平滑或变换,从时域或频域中抽取特征、多种多样的检测算法以及让人类专家来校准系统。通过这些模块提供的功能包括:通用数据预处理、时间序列数据平滑/转换、从时域/频域中提取特征、各种检测算法,以及涉及人类专业知识来校准系统。可以时间序列数据执行三种常见的异常值检测场景:逐点检测(时间点作为异常值)、模式检测(子序列作为异常值)和系统检测(时间序列集作为异常值)。原创 2023-02-08 21:26:47 · 1452 阅读 · 2 评论 -
一文详解8种异常检测算法(附Python代码)
异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点、异常值检测等等。原创 2023-02-03 23:14:13 · 16342 阅读 · 0 评论 -
7个最流行的强化学习算法实战案例(附 Python 代码)
以上就是我们总结的7个常用的强化学习算法,这些算法并不相互排斥,通常与其他技术(如值函数逼近、基于模型的方法和集成方法)结合使用,可以获得更好的结果。原创 2023-01-31 20:45:26 · 8530 阅读 · 0 评论 -
从零开发一个非常有意思的 Python 项目:手势识别
最近开发了一个手势处理的项目(零基础也可以学,就是针对零基础的),我在这儿简单的复述一下原理,总体来说还是比较简单的,主要运用的知识就是opencv,python基本语法,图像处理基础知识。原创 2023-01-30 23:09:02 · 5379 阅读 · 6 评论 -
使用 Keras 深度学习库进行CNN 图像识别
在本文中,了解了如何在 Keras 中创建用于照片中对象识别的深度学习模型。关于 CIFAR-10 数据集以及如何将其加载到 Keras 中并绘制数据集中的临时示例如何在问题上训练和评估一个简单的卷积神经网络如何将简单的卷积神经网络扩展为深度卷积神经网络,以提高难题的性能如何使用数据增强来进一步提升困难的物体识别问题你对物体识别或这篇文章有任何疑问吗?在评论中提出你的问题,我会尽力回答。原创 2023-01-29 14:50:51 · 1348 阅读 · 0 评论 -
你应该知道的 7 个最受欢迎的 Python 机器学习库
2023年你应该知道的 7 个最受欢迎的 Python 机器学习库33/100发布文章未选择任何文件new有一句谚语“你不必重新发明轮子”,工具库就是最好的例子。它可以帮助您以简单的方式编写复杂且耗时的功能。在我看来,一个好的项目会使用一些可用的最佳库。我认为在使用库时,大多数人首先会看到它在 GitHub 上有多少星。在这里,我整理了 7 个最受关注的 Python 库的列表,它们将在您的机器学习开发之旅中为您提供帮助。原创 2023-01-19 19:01:09 · 5376 阅读 · 0 评论 -
你应该知道的机器学习模型部署细节和实施步骤
机器学习操作 (MLOps,Machine Learning Operations ) 是“机器学习”和“工程”的组合,涵盖了与生产 ML 生命周期管理有关的所有内容。ML模型生命周期可大致分为三个阶段。原创 2023-01-18 20:32:49 · 1481 阅读 · 0 评论 -
机器学习实战:一文详解K近邻算法,包括原理解析+实战案例
原理:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,那么该样本也属于这个类别。简单来说就是,求两点之间的距离,看距离谁是最近的,以此来区分我们要预测的这个数据是属于哪个分类。我们看图来理解一下。蓝色点是属于a类型的样本点,粉色点是属于b类型的样本点。此时新来了一个点(黄色点),怎么判断是属于它是a类型还是b类型呢。方法是:新点找距离自身最近的k个点(k可变)。分别计算新点到其他各个点的距离,按距离从小到大排序,找出距离自身最近的k个点。原创 2023-01-14 20:39:54 · 2180 阅读 · 0 评论 -
使用 Flask 快速部署 PyTorch 模型
对于数据科学项目来说,我们一直都很关注模型的训练和表现,但是在实际工作中如何启动和运行我们的模型是模型上线的最后一步也是最重要的工作。今天我将通过一个简单的案例:部署一个PyTorch图像分类模型,介绍这个最重要的步骤。我们这里使用PyTorch和Flask。可以使用pip install torch和pip install flask安装这些包。原创 2023-01-08 11:43:48 · 1157 阅读 · 1 评论 -
【值得收藏】机器学习实战项目汇总(初级、中级、高级)
大家都知道,教科书上所学与实际操作还是有出入的,那关于机器学习有什么好的项目可以实操吗?这次给大家分享一个涵盖面向初学者,中级专家和专家的23种机器学习项目创意,以获取有关该增长技术的真实经验。这些机器学习项目构想将帮助你了解在职业生涯中取得成功、和当下就业所需的所有实践。通过项目学习是你短期内能做的最好投资,这些项目构想使你能够快速发展和增强机器学习技能。语言上,这些机器学习项目可以用Python,R或任何其他工具开发。原创 2022-12-31 21:00:12 · 2826 阅读 · 0 评论 -
速度杠杠的,部署机器学习模型的这7个要点要谨记
在模型部署时,模型的性能和耗时都非常重要。但是我们在构建模型时,往往没有考虑模型的预测速度。虽然性能优化会损害预测准确性,但更简单的模型通常运行得更快,也不容易过拟合。预测延迟被测量为进行预测所需的经过时间。延迟通常被视为一个分布,而运维工程师通常关注此分布的给定百分位数的延迟,如50%或99%情况下的耗时。原创 2022-12-29 21:07:48 · 484 阅读 · 0 评论 -
10个最频繁使用的聚类算法 Python 实现(附完整代码)
在本教程中,您发现了如何在 python 中安装和使用顶级聚类算法。具体来说,你学到了:聚类是在特征空间输入数据中发现自然组的无监督问题。有许多不同的聚类算法,对于所有数据集没有单一的最佳方法。在 scikit-learn 机器学习库的 Python 中如何实现、适合和使用10种顶级聚类算法代码获取方式:公众号回复10大聚类即可领取ipynb完整代码。原创 2022-12-28 22:17:28 · 1086 阅读 · 0 评论 -
【推荐收藏】这份图解算法数据结构的材料太良心
5年前发生的一件事,成为了我职业生涯的重要转折点。当时的我在交大读研,对互联网求职一无所知,但仍然硬着头皮申请了 Microsoft 实习生。面试官让我在白板上写出“快速排序”代码,我畏畏缩缩地写了一个“冒泡排序”,并且还写错了。从面试官的表情上,我知道失败了。此次失利倒逼我开始刷算法题。我采用“扫雷游戏”式的学习方法,两眼一抹黑刷题,扫到不会的“雷”就通过查资料把它“排掉”,配合周期性总结,幸运地,我在秋招斩获了多家大厂的 Offer。当前的就业环境不好,找工作也卷的很,各种面试题也是千奇百怪。原创 2022-12-24 11:26:48 · 1074 阅读 · 1 评论 -
制作圣诞帽其实特简单(附 Python 代码)
圣诞将至,虽然咱不过这洋节,但是热闹还是要凑一下的,相信已经有很多圣诞帽相关的周边在流传了,今天咱们就自己动手,给头像增加一个圣诞帽。原创 2022-12-22 21:29:42 · 1270 阅读 · 0 评论 -
妙不可言,Sklearn 做异常检测这么简单
与其他决策树算法不同的是,孤立森林算法并不是用来预测目标变量的值的,而是用来预测数据点是否是异常值。为了计算出每个数据点是否是异常值,孤立森林算法对每个数据点计算出一个分数,称为异常分数。通常情况下,我们可以设定一个阈值,如果数据点的异常分数低于这个阈值,就认为这是一个异常值。非离群点是与训练集中的大多数点相似的点,而离群点是与训练集中的大多数点显着不同的点。离群检测(Outlier detection):训练数据包含离群值,这些离群值被定义为与其他观察值相差甚远的观察值。原创 2022-12-21 23:43:51 · 934 阅读 · 0 评论 -
使用 IQR、Z-score、LOF 和 DBSCAN 进行异常值检测
Outliers(异常值)是看起来与给定数据集中的大多数其他值有很大差异的值**。**异常值通常可能是由于新发明(真正的异常值)、新模式/现象的发展、实验错误、很少发生的事件、异常、由于排版错误导致的错误输入数据、数据记录系统/组件故障等而出现的。Inliers(正常值)是除异常值之外的分布中的所有数据点。原创 2022-12-19 22:46:14 · 2897 阅读 · 0 评论 -
使用 CNN 检测一个人是否戴了口罩
在本文中,我们将使用 CNN (卷积神经网络)和机器学习分类器创建一个检测一个人是否戴着口罩的分类器。它将检测一个人是否戴着口罩。我们将从头开始学习,我将对每一步进行解释。我需要你对机器学习和数据科学有基本的了解。我已经在本地 Windows 10 机器上实现了它,如果你愿意,你也可以在 Google Colab 上实现它。卷积神经网络是一种人工神经网络,旨在处理像素数据。它们经常用于图像处理和图像识别。图 1 戴口罩 V/S 没戴口罩。原创 2022-12-19 22:39:33 · 9078 阅读 · 2 评论 -
功能超级强大,Python 命令行解析工具 argparse很好用
在工作中,我们经常需要从命令行当中解析出指定的参数,而 Python 也提供了相应的标准库来做这件事情,比如 sys, optparse, getopt, argparse。还是很简单的,一个 - 后面跟的是短参数,两个 - 后面跟的是长参数。然后是参数值的类型,不管什么参数,只要我们在命令行当中传递了,那么解析出来的默认都是字符串类型。只不过这种写法比较怪异,应该写成 --name 和 -n,一个横杠后面是短参数,两个是长参数。另外,虽然 - 后面跟短参数,-- 后面跟长参数,但我们这样写也是可以的。原创 2022-12-18 20:26:17 · 529 阅读 · 0 评论 -
10 个杀手级的 Python 自动化脚本
重复性任务总是耗时且无聊,想一想你想要一张一张地裁剪 100 张照片或 Fetch API、纠正拼写和语法等工作,所有这些任务都很耗时,为什么不自动化它们呢?在今天的文章中,我将与你分享 10 个 Python 自动化脚本。现在,让我们开始吧。原创 2022-12-18 08:31:37 · 7239 阅读 · 5 评论