自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 Agent智能体的体系初探

在人工智能领域,Agent智能体是指具有某种程度的智能和自主性的程序或系统,能够根据环境的变化做出相应的反应和行为。物联网(IoT):Agent智能体可以用于物联网中的智能设备,帮助设备感知环境、做出反应,实现智能化控制和管理。人工智能:Agent智能体在人工智能领域中被广泛应用,包括智能对话系统、智能推荐系统、智能游戏AI等方面。游戏开发:Agent智能体在游戏开发中可以作为游戏中的虚拟角色或敌对角色,增加游戏的趣味性和挑战性。从智能体是否协作可以划分为单智体和多智体,简单总结如下。

2024-05-14 23:10:10 192

原创 LLM的定义及结合语言学的应用

大型语言模型是先进的人工智能系统,旨在理解、生成和解释人类语言。3计算语言学和自然语言处理:LLM是NLP的和计算语言学的心脏,连接语言研究和计算语言学,研究者可以利用LLM开发和完善程序在口语识别,机器翻译,文本生成,和其他自然语言处理任务,对理论语言学的时间和发展做出贡献。2:数据驱动:通过训练大量的文本数据,LLM可以发现语言中的模式和语言结构,对语言的利用和组织提供有价值的见解。1 增强语言学习:LLM拥有能够以一个新的高度产生,理解和产生理解人类语言,对语言结构和使用有了新的见解。

2024-04-16 22:56:24 235

原创 task2 ocr识别改进

1 图像处理 输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。也可以进行去除噪声,通过外设采集的图像通常为彩色图像,彩色图像会夹杂一些干扰信息,灰度化处理的主要目的就是滤除这些信息,灰度化的实质其实就是将原本由三维描述的像素点,映射为一维描述的像素点。..

2021-07-19 23:12:22 227 2

原创 ocr实践-task-0

在本次组队学习中,参考水哥的baseline进行ocr场景识别,具体步骤如下1 下载数据,数据url保存在每个csv文件‘原始数据’特征列,因此可以将多个csv拼接后利用csv文件提取数据train = [ "Xeon1OCR_round1_train1_20210526.csv", "Xeon1OCR_round1_train_20210524.csv", "Xeon1OCR_round1_train2_20210526.csv"]test = [ "Xeon

2021-07-15 21:23:22 146

原创 task5 幸福感分类实测

本次学习组队的目标是对天池幸福感预测数据集进行分析数据目标是对happiness等级分类进行预测,其中训练集的数据分布如下图所示: (等级分布)其中,分类为4的占比做高,为60%,1,2,3,5的分类占40%在总数据集中,数据如下:数据中存在object型数据,并存在负值,因此对负值进行处理#make feature +5#csv中有复数值:-1、-2、-3、-8,将他们视为有问题的特征,但是不删去def getres1(row):...

2021-05-18 21:25:37 200

原创 集成学习task-2 stacking

基于前面对Blending集成学习算法的讨论,我们知道:Blending在集成的过程中只会用到验证集的数 据,对数据实际上是一个很大的浪费。为了解决这个问题,我们详细分析下Blending到底哪里出现问题 并如何改进。在Blending中,我们产生验证集的方式是使用分割的方式,产生一组训练集和一组验证 集,这让我们联想到交叉验证的方式。顺着这个思路,我们对Stacking进行建模,Stacking方法是一种分层模型集成框架。以两层为例,首先将数据集分成训练集和测试集,利用训练集训练得到多个初级学习.

2021-05-13 21:53:28 264

原创 task 1 blending

Blending是一种模型融合的方式,第一层通过将训练集出一部分作为holdout set,然后通过剩下的数据生成模型对holdout set 进行预测,第二层,直接对预测结果建模生成第二层的模型Blending第一层将训练集需要划分为训练集(train_set)和验证集(val_set)。第一层中可以选择多个模型,这些模型可以是同质的也可以是异质的。然后分别使用训练集对这些模型训练,将训练好的模型对验证集进行验证得到预测特征。这些预测特征将作为第二层的训练集。第一层模型的训练代码如下:impor

2021-05-11 23:14:20 56

原创 task-11 xgb算法实战

集成方法主要包括Bagging和Boosting,Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个更加强大的分类。两种方法都是把若干个分类器整合为一个分类器的方法,只是整合的方式不一样,最终得到不一样的效果。常见的基于Baggin思想的集成模型有:随机森林、基于Boosting思想的集成模型有:Adaboost、GBDT、XgBoost、LightGBM等。xgboost的工作原理如下有一个样本[数据->标签]是:[(feature1,featur...

2021-04-26 20:54:09 515 1

原创 task10 前向分布算法与梯度提升决策树

前向分布算法公式:先定义一个简单的加法模型输入:训练数据集 损失函数: 基函数集: 输出:加法模型极小化损失函数:更新:通常这是一个复杂的优化问题,很难通过简单的凸优化的相关知识进行解决。前向分步算法可以用来求解这种方式的问题,它的基本思路是:因为学习的是加法模型,如果从前 向后,每一步只优化一个基函数及其系数,逐步逼近目标函数,那么就可以降低优化的复杂度。最后得到的加法模型如下:也可以通过如下解释...

2021-04-24 00:29:21 123

原创 tsak3-boosting算法原理和思路拓展

导读提升(Boosting)方法是一种广泛有效的学习方法,在分类问题中,通过改变训练样本中的权重,学习多个分类器,并将分类器进行线性组合,提高分类的性能。Boosting算法和Bagging算法的不同Boosting算法使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性更好的机器学习模型。与之前的Bagging不同,Bagging是全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合, 然后投票得出最终的预测。两者的区别是使用模型数量的不同,

2021-04-20 23:32:57 240

原创 组队学习task-2 boosting及其基本思路

Boosting是一种通过组合弱学习器来产生强学习器的通用且有效的方法,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十 分强大的机器学习模型。常见的算法有adaboost。对于Adaboost来说,解决上述的两个问题的方式是:1. 提高那些被前一轮分类器错误分类的样本的权重,而降低那些被正确分类的样本的 权重。这样一来,那些在上一轮分类器中没有得到正确分类的样本,由于其权重的增大而在后一轮的训练中“备受关注”。2. 各个弱分类器的 组合是通过采取加

2021-04-17 21:59:39 74

原创 TASK-1 投票法原理及实践

投票法:分类的机器学习算法输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(Soft voting)。

2021-04-13 22:51:18 254

原创 金融风控Task5 模型融合

模型融合是通过融合多个模型,最终达到提升性能,达到好的分数的过程,一般来说,模型融合都是放在所有流程的最后,一般用于冲分阶段,具体来说模型融合有以下几种形式1 voting或权重型即通过对模型的预测结果进行投票或赋予权重,达到弥补模型的错误,提升分数的作用。但是该种方法适用于结果相互独立的模型,例如xgboost模型和lgb模型根据其性能分别赋予权重或投票,即对于正确率低的模型给予更低的权重,而正确率更高的模型给予更高的权重。但是对于越相近的模型效果越差。2 Bagging算法 (英语:Bo

2020-09-27 23:26:02 173

原创 金融风控TASK4 建模与调参

调参做为风控领域重要的一环,对于提升模型性能,达到高分必备的环节对于本次比赛,我们选用auc作为模型评价标准,类似的评价标准还有ks、f1-score等,具体介绍与实现大家可以回顾下task1中的内容。一起来看一下auc到底是什么?在逻辑回归里面,对于正负例的界定,通常会设一个阈值,大于阈值的为正类,小于阈值为负类。如果我们减小这个阀值,更多的样本会被识别为正类,提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象,引入ROC。ROC曲线中的四个点:点(0,1

2020-09-24 23:47:56 219

原创 金融风控task3-特征工程

特征工程是算法竞赛中重要的一环,是决定模型效果上限的重要标准,特征工程的作用在决定最后分数时是非常大的,因此通常将大量时间用于特征工程中,特征的复杂性也往往决定特征工程的工作量,因此一个好的特征工程需要细细打磨。1 缺失值的处理:对于缺失值,可以采用向上,向下填充,固定值填充等方法,但是具体那种作用更大需要逐个实验#按照平均数填充数值型特征data_train[numerical_fea] = data_train[numerical_fea].fillna(data_train[numer

2020-09-21 23:39:22 311

原创 金融风控 Task2-EDA

1 数据概览本次项目的数据集中,有80w左右的数据,数据类型有整数型,类别型,浮点型,大致可分为数值型和类别型两类,标签为受否违约(isDefault)在数据探索的过程中,我们要对于各个特征的类型,分布情况,与标签的相关程度进行分析,为下一步特征工程奠定基础2 各个特征的分布在训练集和测试集的分布情况这一步是考察各项数据的分布情况,尤其是训练集和测试集的差别,如果有个特征某部分在训练集上有分布但在测试集上没有,就要删除这部分对应的特征分布,比面数据的过拟合以上是部分特征...

2020-09-18 21:51:38 164

原创 金融风控-task1 赛题理解

TASK1 赛题理解本次组队学习的任务是典型的贷款违约问题,即通过所给的关与贷款者的各项字段特征去判断该客户是否是潜在的违约客户,这类题在各类风控问题中常常出现,因为不同银行或机构所掌握的客户信息不同,每个特征也不同,所以如何利用字段特征,成为了是否能拿高分的关键因素先来看一下题目简介:赛题以预测用户贷款是否违约为任务,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万

2020-09-15 00:06:09 653

原创 金融建模时序预测 总结

1金融时序预测用过去的特征预测未来的结果,因此与传统依靠标签的数据集不同,不能采用随机分割的方式,因为连续性的时间特征2 对于时序特征中的缺失值,既可以采用传统的均值填充,向下向上填充,也可采用预测填充3 考虑金融数据中特有特征的影响,如购入数量,赎回量等,并且需要考虑波峰,波谷等的影响4 加入随机因子对时序预测有很大作用5 考虑周期性的影响...

2020-08-25 22:14:52 636

原创 金融时序预测-task5,6 特征工程,建模预测

特征工程特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。特征工程在机器学习中占有非常重要的作用,一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦,需要一定的经验。其中,以标签为目标,根据标签的不同属性做特征工程是特征工程中重要的一环如在本次项目中,用相关性探索在is标签下,各个标签的相关性,并绘制热力图或者在推荐系统中,..

2020-08-24 23:22:37 477

原创 金融时序预测 task3

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题,和回归分析模型的预测不同,时间序列模型是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的。以以前做的一个时序模型比赛为例import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom random import randrangefrom statsmodel

2020-08-22 21:06:15 382

原创 金融时序预测task2

本次组队学习的内容1箱形图箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。2 kdeplot(核密度估计图)核密度估计(kernel densi..

2020-08-21 22:12:01 243

原创 金融时序预测 Task1 数据探索

本次组队学习数据来自阿里天池 金融时序预测竞赛 课程内容 https://github.com/KakaWanYifan/The-Purchase-and-Redemption-Forecasts 数据在github上可以找到,也可以访问比赛链接 https://tianchi.aliyun.com/competition/entrance/231573/information先来导入用户申购赎回表,这个表单包含了用户的操作时间,操作记录,其中操作记录包含申购赎回两部分,时间单位精确到天,金额精确.

2020-08-20 12:37:46 383

原创 task6-word2vec和bert

今天深入了解word2vec模型先看一下官网的定义Word2Vec is a more recent model that embeds words in a lower-dimensional vector space using a shallow neural network. The result is a set of word-vectors where vectors close together in vector space have similar meanings based

2020-08-04 23:33:00 263

原创 Task5-基于深度学习的文本分类2

word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)先来看一下官网的介绍:Using large amounts of unannotated plain text, word2vec learns relationships between words a

2020-07-31 13:07:26 153

原创 Task-4 基于深度学习的文本分类1

也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。与这些表示方法不同,深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。在本章我们将介绍FastText,将在后面的内容介绍Word2Vec和Bert。FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Em

2020-07-27 22:48:05 121

原创 task3 tf-idf文本分类

在机器学习算法的训练过程中,假设给定$N$个样本,每个样本有$M$个特征,这样组成了$N×M$的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到定长的空间内,是文本分类的第一步。TF-IDFTF-ID.

2020-07-25 20:19:43 247

原创 Task2 数据分析与处理

对于数据的基本信息无缺失值,总计两万数据文本的基本信息:最少的仅有两个字符。最大的57921个字符

2020-07-22 23:52:08 122 1

原创 Task1-天池新闻文本赛题分类理解

阿里天池新闻文本分类理解本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第三场 —— 零基础入门NLP之新闻文本分类挑战赛。赛题以自然语言处理为背景,要求选手根据新闻文本字符对新闻的类别进行分类,这是一个经典文本分类问题。通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。先来看看数据集的样子 ...

2020-07-21 21:42:05 205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除