机器学习
文章平均质量分 92
大模型与自然语言处理
这个作者很懒,什么都没留下…
展开
-
2024淘天阿里妈妈算法工程师一面&二面 面试题
(1)求一个数的N次幂flag = 1if n < 0:flag = 0res = 1k *= kn //= 2return res(2)全排列输入: 5,3输出: [(1,2,3),(1,2,4),(1,2,5),(2,3,4),(2,3,5),(3,4,5),…]returnreturnreturntmp.pop()res = []tmp = []return res。原创 2024-03-24 09:06:22 · 1338 阅读 · 0 评论 -
吴恩达倾情推荐!28张图全解深度学习知识!
本文约7500字,建议阅读15分钟本文将从深度学习基础(01-13)、卷积网络(14-22)和循环网络(23-28)三个方面介绍该笔记。吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程图,这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解深度学习,还适合机器学习从业者和研究者复习基本概念。这不仅仅是一份课程笔记,同时还是一套信息图与备忘录。原创 2024-01-06 20:13:28 · 1027 阅读 · 0 评论 -
讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛-三等奖方案
本文公开了”讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛“赛道的技术方案和代码,本次比赛主要采用pdf解析和特征工程的方法,通过使用lightgbm的树模型10折交叉验证进行二分类的任务,最终取得三等奖的成绩。本次比赛主要采用pdf解析和特征工程的方法,通过使用lightgbm的树模型10折交叉验证进行二分类的任务。原创 2023-12-16 16:47:37 · 450 阅读 · 0 评论 -
刚刚,ChatGPT官宣数学能力再升级,网友:终于精通十以内加减法了
在去年 12 月在一次内部讨论中,百度 CEO 李彦宏曾分享自己对 ChatGPT 的看法:「把这么酷的技术变成人人需要的产品」才是最难的,希望百度新的一年「至少能有一个高成长、有创新的业务,真正的 above and beyond our expectation」。未来将公布代码和数据。在论文《A Watermark for Large Language Models》,他们提出了一种高效水印框架,水印的嵌入对文本质量的影响忽略不计,可以使用高效的开源算法进行检测,而无需访问语言模型的 API 或参数。原创 2023-02-02 22:46:47 · 1905 阅读 · 0 评论 -
用 Python 从单个文本中提取关键字的四种超棒的方法
到这里我们已经一起学习了在提取关键字/关键短语领域使用的四种最棒的技术,并提供了简单代码实现。这四种方法各有千秋。并且每个都成功地提取了与作者指定的关键字相同或接近并与该领域相关的关键字。原创 2023-02-02 22:41:04 · 3763 阅读 · 2 评论 -
一文详解自底向上构建知识图谱全过程
俗话说:“看人先看脸。”在我们深入了解知识图谱之前,让我们先来看一下它长什么样子!如图所示,你可以看到,如果两个节点之间存在关系,他们就会被一条无向边连接在一起,那么这个节点,我们就称为实体(Entity),它们之间的这条边,我们就称为关系知识图谱的基本单位,便是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,这也是知识图谱的核心。原创 2023-01-17 23:23:35 · 780 阅读 · 0 评论 -
用通俗易懂的方式讲解:实体关系抽取入门教程
在自然语言处理领域,关系通常主要指代文本中实体之间的联系,如语法关系、语义关系等。通常将实体间的关系形式化地描述为关系三元组, 其中E指的是实体类型,R为的是关系描述类型。基于以上的定义,可以直观地将关系抽取任务分成3个关键的模块:命名实体识别:是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等触发词识别:对触发实体关系的词进行分类,识别出是触发词还是非触发词,判定抽取出的关系是正类还是负类;关系抽取模块:从识别出的实体中抽取实体间的语义关系;原创 2023-01-01 10:06:26 · 1113 阅读 · 0 评论 -
用通俗易懂的方式讲解:关键词提取方法总结及实现
关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。无监督关键词提取****方法和有监督关键词提取方法。1、无监督关键词提取方法不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词提取。该方法是先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。原创 2023-01-01 09:48:24 · 4512 阅读 · 0 评论 -
模型超过20个,这是一款专门为时间序列建模而设计的工具包
欢迎关注 ,专注 Python、数据分析、数据挖掘、好玩工具!时间序列数据是以时间为索引的数据点的集合,它存在于各个领域和行业,零售行业的商品销售时间序列,来自监控设备、应用程序或云资源的指标,或者物联网传感器生成的测量时间序列等等,都是时间序列数据的例子。与时间序列有关的最常见机器学习任务,包括_预测、平滑处理、_侦测(例如界外值、异常点或变化点侦测)以及分类等。原创 2022-12-26 22:22:10 · 374 阅读 · 0 评论 -
用通俗易懂的方式讲解:TextRank 算法介绍及实现
是一种基于图的用于关键词抽取和文档摘要的排序算法,由谷歌的网页重要性排序算法PageRank算法改进而来,它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词,它能够从一个给定的文本中抽取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法抽取出该文本的关键句。关键词抽取结束后,我们可以得到的N个关键词,在原始文本中相邻的关键词构成关键短语。:如果一个网页被一个越高权值的网页链接,也能表明这个网页越重要,即一个PR值很高的网页链接到一个其他网页,那么被链接到的网页的PR值会相应地因此而提高。原创 2022-12-24 22:26:30 · 1173 阅读 · 0 评论 -
NLP常见语言模型及数据增强方法总结
为2-gram建立索引:{"John likes”: 1, "likes to”: 2, "to watch”: 3, "watch movies”: 4, "Mary likes”: 5, "likes too”: 6, "John also”: 7, "also likes”: 8, “watch football”: 9, “football games”: 10}(这也是隐马尔可夫当中的假设。N-gram是计算机语言学和概率论范畴内的概念,是指给定的一段文本或语音中N个项目(item)的序列。原创 2022-12-24 22:15:38 · 1531 阅读 · 0 评论 -
我制作了一个基于Python 的电影订票系统
结构来存储,我们可以给字典里添加多个键值对来保存电影的名称、座位表和宣传时用的字符画,比如电影《泰坦尼克号》等其他电影的详细信息就可以按下面形式保存到字典。出于人性化考虑,我们希望用户既可以输入序号选择观看电影,也可以输入。用于展示所有座位的预订状态,一部电影的详细信息适合用。,这个类包含了两种方法,原创 2022-12-22 22:53:03 · 293 阅读 · 0 评论 -
最频繁使用的9大时序异常检测方法
异常值(Outlier)给定输入时间序列[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gpgjDfWM-1651809559416)(https://mmbiz.qpic.cn/mmbiz_svg/wcib2GksmGOlHr1z1jobUqwaATSrIKPsrDbSJ3wpkQl2wRvibZBzRbrEcZXIT38aYNs5pDOhIMbDiarQicDGDnA1Omk8CBicc82S4/640?原创 2022-12-22 22:45:51 · 765 阅读 · 0 评论 -
用通俗易懂的方式讲解:针对中文的自然语言预处理方法汇总
(1)使用已有的语料库(2)网络爬虫获取自己的语料库(可以使用 beautifulsoup 等爬虫工具)原创 2022-12-18 09:37:22 · 918 阅读 · 0 评论 -
好用到爆,分享给大家几个我最常用的 Jupyter Notebook 效率插件
是一个很棒的教学、探索和编程环境,但其功能不足也是出了名的。幸好,有许多方法可以改进这个不错的工具,如 扩展工具。在命令提示符中运行以下命令:启动 Jupyter Notebook,并导航至新的 Nbextensions 选项卡:选择你想要的扩展功能,享受它带来的优势。(如果你没看到扩展选项,打开 ,单击「edit」,然后点「nbextensions config」)在 的工具栏里可以看到扩展插件:如果你觉得上面的教程太简单,可以看看下面的复杂版。我还列出了我最喜欢的五个扩展插件。 扩展插件是扩展 n原创 2022-12-18 09:23:16 · 250 阅读 · 0 评论 -
用通俗易懂的方式讲解:总结NLTK使用方法
搜索引擎在索引页面的时候使用这种技术,所以很多人通过同一个单词的不同形式进行搜索,返回的都是相同的,有关这个词干的页面。有时,如果你试图还原一个词,比如 playing,还原的结果还是 playing。(3)实际上,这是一个非常好的文本压缩水平。NLTK 有一个 PorterStemmer 类,使用的就是 Porter 提取算法。它包括部分词语的一个同义词组和一个简短的定义。,如果你想得到动词,可以通过以下的方式指定。词干提取的算法有很多,但最常用的算法是。的结果是一个真正的词汇。原创 2022-12-17 18:20:34 · 1139 阅读 · 0 评论 -
用通俗易懂的方式讲解:TF-IDF算法介绍及实现
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。原创 2022-12-16 22:20:42 · 3128 阅读 · 1 评论 -
用通俗易懂的方式讲解:NLP 这样学习才是正确路线
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。自然语言处理是人工智能中最为困难的问题之一。原创 2022-12-15 22:22:03 · 1338 阅读 · 0 评论 -
太详细了,时间序列21个技术要点全面讲解(附 Python 代码)
时间序列是在规律性时间间隔记录的观测值序列。依赖于观测值的频率,典型的时间序列可分为每小时、每天、每周、每月、每季度和每年为单位记录。有时,你可能也会用到以秒或者分钟为单位的时间序列,比如,每分钟用户点击量和访问量等等。1.1 为什么要分析时间序列呢?因为它是你做序列预测前的一步准备过程。而且,时间序列预测拥有巨大的商业重要性,因为对商业来说非常重要的需求和销量、网站访问人数、股价等都是时间序列数据。1.2 所以时间序列分析包括什么内容呢?原创 2022-12-13 23:24:05 · 200 阅读 · 0 评论 -
【推荐收藏】可显著提升模型效果的4种超参自动优化方法
上面我们用Iris鸢尾花数据集试了不同的超参自动调优方法,发现贝叶斯优化和随机搜索都比格子搜索好。从一些论文反映,贝叶斯优化是更香的,但是贝叶斯优化好像在实践中用的不是那么多,网上也有很多分享者,像Nagesh Singh Chauhan,说的那样:[10]为什么呢?我想原因是贝叶斯的开销太大了,前面有提到,在每次循环选超参值的时候,贝叶斯优化都需要将 带入昂贵的目标函数 中,去得到输出值y,当目标函数特别复杂时,这种情况的评估开销是很大的,更何况随着搜索空间和搜索次数的变大,计算会越发昂贵。原创 2022-12-13 23:17:16 · 606 阅读 · 0 评论 -
CatBoost, XGBoost, AdaBoost, LightBoost,各种Boost的介绍和对比
在集成学习中,目标是用多种学习算法最成功地训练模型。Bagging方法是一种集成学习方法,将多个模型并行应用于同一数据集的不同子样本。Boosting是另一种在实践中经常使用的方法,它不是并行构建的,而是按顺序构建的,目的是训练算法和模型。弱算法先对模型进行训练,然后根据训练结果对模型进行重组,使模型更容易学习。然后将修改后的模型发送给下一个算法,第二个算法比第一个算法学习起来更容易。本文包含了不同的增强方法,从不同的角度解释了这些方法并进行了简单的测试。原创 2022-12-11 23:35:24 · 1003 阅读 · 0 评论 -
机器学习评估分类模型的10个最频繁使用的重要指标
在这篇文章中,我们将学习10个最重要的模型性能度量,这些度量可用于评估分类模型的模型性能。一旦我们了解了适当的用法以及如何根据问题陈述来解释这些度量,那么衡量分类模型的强度就不是问题了。我们将使用一个数据集的例子,它有yes和no标签,用于训练逻辑回归模型。这个用例可以是任何分类问题-垃圾邮件检测、癌症预测、损耗率预测、活动目标预测等。我们将在本文需要时参考特殊用例。目前,我们将考虑一个简单的逻辑模型,它必须预测是或否。原创 2022-12-11 23:31:20 · 178 阅读 · 0 评论 -
案例实操|手把手教你搭建 RFM 客户价值分析模型
1)R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。2)F(Frequency):值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。3)M(Monetary):客户在最近一段时间内交易的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。RFM模型是衡量客户价值和用户创利能力的经典工具,依托于客户最近一次购买时间、消费频次及消费金额。原创 2022-12-10 14:32:24 · 795 阅读 · 0 评论 -
【超级详细】PyCharm 的使用技巧这篇全部囊括
在 PyCharm 中有一个功能叫 Live Template,它可以用来自定义一些常用的代码片段。比如下面这段,几乎是写 Python 脚本必备的当你在PyCharm 中编码 python 代码时,只要输入 main ,PyCharm 就会在 Live Template 里找到定义过的代码片段,然后只要直接键入回车,就可以生成这段代码。再比如说,我通常会定义简单的装饰器代码这样当我要定义一个最简单的装饰器时,只要输入deco再直接敲入回车就行啦。根据开源框架定制功能,是我每天都要做的事情。原创 2022-12-10 14:27:04 · 1421 阅读 · 0 评论 -
特征筛选还在用XGB的Feature Importance?试试Permutation Importance
Permutation Importance 是一种变量筛选的方法。它有效地解决了上述提到的两个问题。Permutation Importance 将变量随机打乱来破坏变量和 y 原有的关系。如果打乱一个变量显著增加了模型在验证集上的loss,说明该变量很重要。如果打乱一个变量对模型在验证集上的 loss 没有影响,甚至还降低了 loss,那么说明该变量对模型不重要,甚至是有害的。▲ 打乱变量示例变量重要性的具体计算步骤如下:1. 将数据分为 train 和 validation 两个数据集。原创 2022-12-08 23:34:19 · 462 阅读 · 0 评论 -
利用算法轻松预测用户贷款是否违约(附 Python 源码)
大家好,最近一张"因疫情希望延缓房贷"的截图在网上流传,随即引起网友们的热议!当借款人从贷款机构借钱而不能如期还贷款时,就可能会发生贷款违约。拖欠贷款不仅会上报征信,还可能有被起诉的风险。为更好的管控风险,贷款机构通常会基于用户信息来预测用户贷款是否违约,今天我将使用示例数据集来给大家讲解预测贷款违约的工作原理,原创 2022-12-08 23:26:19 · 1721 阅读 · 0 评论 -
实战案例!基于 K-Means 聚类算法的客户精准营销模型
客群细分对于企业了解目标受众非常重要。根据受众群体的不同,我们可以给采取不同的营销策略。目前有许多无监督的机器学习算法可以帮助公司识别他们的用户群并创建消费群体。在本文中,我将分享一种目前比较流行的 K-Means 聚类的无监督学习技术。K-Means的目标是将所有可用的数据分组为彼此不同的不重叠的子组。K-Means聚类是数据科学家用来帮助公司进行客户细分的常用技术。在本文中,你将了解以下内容:本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式原创 2022-12-06 22:52:35 · 2050 阅读 · 6 评论 -
这 3 种特征分箱方法,提升机器学习模型效果明显!
大家好,一般在建立分类模型时,当我们进行特征工程的工作经常需要对连续型变量进行离散化的处理,也就是将连续型字段转成离散型字段。离散化的过程中,连续型变量重新进行了编码。特征离散化后,模型会更稳定,降低了模型过拟合的风险。本文主要介绍3种常见的特征分箱方法,喜欢记得点赞、收藏。本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友连续型变量执行离散化的分箱操作,能够更加简洁地呈现数据信息消除特征变量的量纲影原创 2022-12-06 22:47:24 · 640 阅读 · 0 评论 -
Python 进行模型训练,怎么交给Java 部署呢?
最近碰到几个人问,如何实现 java 调用他们写好的 Python 应用(模型),这里我就把几种常见的办法做下汇总整理。喜欢本文记得收藏、点赞。本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友如使用 java 的 API,2. 通过 REST APIREST 是表现层状态转换(英语:Representational State Transfer)的英文缩写,是 Roy Thomas Fieldi原创 2022-12-03 13:18:43 · 1988 阅读 · 1 评论 -
模型这次可以解释了,利用 Shap 可轻松实现模型输出可视化
解释一个机器学习模型是一个困难的任务,因为我们不知道这个模型在那个黑匣子里是如何工作的。但是解释也是必需的,这样我们可以选择最佳的模型,同时也使其健壮。Shap 是一个开源的 python 库,用于解释模型。它可以创建多种类型的可视化,有助于了解模型和解释模型是如何工作的。在本文中,我们将会分享一些 Shap 创建的不同类型的机器学习模型可视化。我们开始吧…使用pip安装Shap开始。下面给出的命令可以做到这一点。导入所需库在这一步中,我们将导入加载数据、创建模型和创建该模型的可视化所需的库。创建模型原创 2022-12-03 13:13:34 · 2751 阅读 · 1 评论 -
20+时序模型,一款时间序列建模神器:GluonTS
时间序列数据是以时间为索引的数据点的集合,它存在于各个领域和行业,零售行业的商品销售时间序列,来自监控设备、应用程序或云资源的指标,或者物联网传感器生成的测量时间序列等等,都是时间序列数据的例子。与时间序列有关的最常见机器学习任务,包括_预测、平滑处理、侦测(例如界外值、异常点或变化点侦测)以及分类等。原创 2022-11-28 22:39:14 · 629 阅读 · 2 评论 -
【机器学习】算法模型自动超参数优化方法
在机器学习里,通常来说我们不能将全部用于数据训练模型,否则我们将没有数据集对该模型进行验证,从而评估我们的模型的预测效果。原创 2022-11-28 22:29:17 · 662 阅读 · 0 评论 -
【全流程实战】一个非常适合初学者的机器学习预测案例
大家好,今天我给大家介绍一个非常适合新手的机器学习实战案例。这是一个的案例,来源于网站,是很多算法初学者的第一道竞赛题目。该案例有着解机器学习问题的完整流程,包含EDA、特征工程、模型训练、模型融合等。下面跟着我,来学习一下该案例。没有啰嗦的文字,没有多余的代码,只有通俗的讲解。原创 2022-11-27 23:02:04 · 460 阅读 · 0 评论 -
【推荐收藏】机器学习9种回归算法原理及实例的总结太详细了
我相信很多人跟我一样,学习机器学习和数据科学的第一个算法是线性回归,它简单易懂。由于其功能有限,它不太可能成为工作中的最佳选择。大多数情况下,线性回归被用作基线模型来评估和比较研究中的新方法。在处理实际问题时,你应该了解并尝试许多其他回归算法。一方面可以系统学习回归算法,另外一方面在面试中也常用到这些算法。在本文中,我们将通过使用 Scikit-learn 和 XGBoost 的动手实践来学习 9 种流行的回归算法。原创 2022-11-27 22:09:49 · 541 阅读 · 0 评论