数据挖掘实训周报week7

最新推荐文章于 2023-02-17 11:24:04 发布

salty_dong

最新推荐文章于 2023-02-17 11:24:04 发布

阅读量546

点赞数

本文链接：https://blog.csdn.net/salty_dong/article/details/109610452

版权

本周开始了新的大作业比赛的学习

主要是学习了数据集的一些基本情况

数据集包含约25000家企业数据，其中约15000家企业带标注数据作为训练集，剩余数据作为测试集。数据由企业基本信息、企业年报、企业纳税情况等组成，数据包括数值型、字符型、日期型等众多数据类型（已脱敏），部分字段内容在部分企业中有缺失，其中第一列id为企业唯一标识。

主要一共有8个数据集，每一行代表一个企业的基本数据，需要给出企业是否有非法集资风险的预测概率值

比赛采用分类任务的精确率 P（precision）、召回率 R（recall）和 F1 -score三个指标作为模型性能的评判标准。
在这里插入图片描述
接下来要处理的任务就是数据的预处理了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

salty_dong

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

数据挖掘实训周报1

chenxz_的博客

04-11

1312

数据挖掘实训周报1 本阶段工作内容一、了解甜橙金融杯大数据竞赛并报名，下载数据。报名官网二、配置本机环境。因为使用的是Mac系统，所以配置环境相对简单，使用的是python3，以及使用pip3下载实训所需要用到的各种包。使用以下命令即可 sudo pip3 install numpy scipy pandas scikit-learn statsmodels matplotlib xgbo...

数据挖掘实训周报week6

salty_dong的博客

11-03

245

本周主要学习了pla算法 Percetron Learning Algorithm——感知学习算法。 PLA用于解决的是对于二维或者高维的线性可分问题的分类，最终将问题分为两类——是或者不是。 PLA算法即用来求向量W（用于预测的向量），使得在已知的数据中机器做出的判断与现实完全相同。当X为二维向量时，相当于在平面上画出一条直线将所有的点分成两部分，一部分同意发送，另外的不同意。 PLA的优缺点： 1.首先，PLA的算法是局限在线性可分的训练集上的，然而我们拿到一个训练集，并不知道其到底是不是线性可分，

参与评论您还未登录，请先登录后发表或查看评论

数据挖掘实训周报week3

salty_dong的博客

10-11

458

本周主要学习了xgboost。 XGBoos是在AdaBoost和GBDT等提升算法基础上进行了优化的算法，一般来说，算法都是由模型、参数和目标函数三部分组成。模型可以理解为基函数(一个函数的固定形式，也就是函数只会在这个函数的基础上变化而不会丢掉的函数)和权重的组合即一类问题的算法。参数就是算法学习的结果，就像决策树学习产生的从根节点通往叶节点的路径q和每个叶节点上面的期望权重w，改变参数（q，w）就是改变已有模型。优化目标函数需要实现两个目的：第一：尽量让预测值接近真实值；第二：保证模型的泛化能力（Ge

数据挖掘实训周报week4

salty_dong的博客

10-20

232

数据标注实习报告一实习基本情况二实习内容三实习收获与体会四不足与努力方向 1500字以上...

热门推荐

weixin_42596011的博客

02-17

1万+

我在实习期间，就数据标注这一领域进行深入研究，掌握了一系列技术技能。首先，我从数据库中提取了大量的数据，并对这些数据进行了分析，总结出每种数据的特征和性质。其次，我熟悉了各种数据标注的方法，如文本标注、图像标注等，并采用相应的工具进行了标注。最后，我按照标准格式对标注完成的数据进行了检查。通过这段实习，我获得了丰富的知识和宝贵的经验。但是，同时，我也感受到了自己在这方面的不足，例如对数据标注工具和...

数据挖掘实训周报week1

salty_dong的博客

09-29

761

本次实训的课题还是数据挖掘，实训的形式主要以天池的比赛为主。第一项比赛为《零基础入门金融风控-贷款违约预测》，赛题以金融风控中的个人信贷为背景，要求选手根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款，是一个典型的分类问题。关于分类问题，之前的课程和一些项目都有涉及过，比如之前的数据挖掘课程做的便是表情识别的分类器。图象的分类，有着明确的判别标准，像与不像，表情的类别等等。而本次的金融类分类，初识数据不知从何处入手，并没有给出的“47列变量信息”和“是否可以贷款”之间关系的概念。

数据库实训周报（一）1

08-08

【数据库实训周报（一）1】本周是数据库实训的第一周，主要集中在团队构建、任务分工、项目计划制定以及系统需求分析上。这些是任何软件开发项目，特别是涉及数据库管理系统的项目的基础步骤。 1. **团队组建与分工...

计算机CAD专业实训周志,cad实训报告总结(共7篇).doc

weixin_35648005的博客

07-30

1749

cad实训报告总结(共7篇)cad实训报告总结(共7篇)按照课程按排，我们进行了两周的CAD实训。从上个学期的手工画图，到这个学期的电脑画图，感觉到先进的技术人们带来了快速和方便。上个学期的手工画图，即麻烦又不方便。用铅笔和尺子趴在桌子上埋头的画，由于受人和仪器的原因，图画的误差可能比较大，从而影响了图画的质量，工程图的好坏对工程的影响是很大的，可能导致豆腐渣工程，危害人们的生命财产，这是不允许的...

数据挖掘实训周报week8

salty_dong的博客

11-17

311

本周理论学习主要学了特征组合特征交叉一种合成特征的方法，可以在多维特征数据集上，进行很好的非线性特征拟合。假设一个数据集有特征x1和x2，那么引入交叉特征值x3，使得： x3=x1x2 那么最终的表达式为： y=b+w1x1+w2x2+w3x3 使用One-Hot向量的方式进行特征交叉。这种方式一般适用于离散的情况，很少用于连续的数据集上。我们可以把特征交叉看成数据的逻辑与操作。在地图的方面的处理中，需要用到特征交叉。下图的房价和经纬度中，单纯的给出经度或者纬度，都不能直接反应房价和地理位置的关系。更好

如何写一份合格的周报

芦金宇的专栏

07-25

1521

正如在上一篇文章结尾承诺的，今天我来分享一下如何写一份合格的周报。周报的作用可能无需我多介绍了，对你的老板来说，周报是他了解你每周工作内容的直接渠道，对你来说，周报是基于每周工作的复盘与思考。当然我必须得说，周报只是一种工作管理的工具，你的真正价值体现在你具体的工作产出上。如果缺少有价值的工作产出，那些漂亮的周报，其实也是徒有虚表，经不起推敲。好的，言归正传。假设过去一周你工作很辛苦...

第一周实习总结

RookieRocket的专栏

07-28

1292

上周完成的学习内容： 1、

综合实训周报一

liym0706的博客

09-29

288

目录标题理论学习实践学习理论学习本周的理论学习主要在于学习数据挖掘相关的知识，由于本人之前并没有上过《数据挖掘导论》这门课程，导致有许多的知识点都并不了解。所以本周的主要任务就是将数据挖掘大概流程，所需要用到的知识大致的过了一遍。实践学习实践学习本周主要是将该练习赛的内容看了一遍，了解了比赛相关的学习资料。之后尝试进行相应操作，主要是进行数据预处理环节。由于题目中所给出的数据维度较多，需要进行对相应数据的筛选，剔除掉一些一些与因变量相关关系不强的自变量。如何选择合适的自变量主要凭自己的直观感受，以

数据标注学习总结

u013916029的博客

07-18

6816

数据标注 人工智能机器学习

实习第二周周报

weixin_30616969的博客

04-29

2392

这周主要学习了集合，IO，多线程一、集合　　1.集合主要继承图（核心卷1）　　2.ArrayList 　　　　arrayList是非同步的基于动态数组实现，在arrayList的类中描述到在集合在进行size、isEmpty、get、set、iterator、listIterator操作时，会发生fail-fast机制，因为在这些操作会checkForComod...

香蕉成熟度分类目标检测数据集(YOLO格式)构建与应用

05-13

内容概要：本文详细介绍了香蕉成熟度分类目标检测数据集的构建及其应用方法。数据集采用YOLO格式，包含18074张图像，分为训练集、验证集和测试集。文中不仅展示了数据集的目录结构和标签文件格式，还提供了Python代码用于加载和可视化标签，以及使用Ultralytics的YOLOv8进行模型训练的方法。此外，针对实际操作中可能出现的问题如类别ID调整、样本不均衡处理等给出了具体解决方案，并分享了一些提高标注精度的小技巧。适合人群：对目标检测感兴趣的研究人员和技术爱好者，尤其是希望利用深度学习技术进行水果成熟度识别的从业者。使用场景及目标：适用于需要构建和训练香蕉成熟度分类模型的研究项目或商业应用。主要目标是帮助用户掌握从数据准备到模型部署的完整流程，同时提供解决常见问题的有效途径。其他说明：本文提供的代码片段可以直接运行，但需确保环境已安装相关依赖库。对于初学者而言，在尝试复现实验前建议先熟悉YOLO算法的基本概念和工作原理。

基于MATLAB的齿轮-轴-轴承系统非线性动力学建模与混沌特性分析

05-13

内容概要：本文详细介绍了基于MATLAB对齿轮-轴-轴承系统进行非线性动力学建模及其混沌特性分析的方法。首先，根据牛顿第二定律建立了齿轮系统的非线性动力学方程，并采用修正Capone模型的滑动轴承无量纲化雷诺方程来模拟滑动轴承的行为。接着，通过MATLAB编写了核心微分方程函数和轴承力计算函数，实现了对系统在不同转速下的动态特性的仿真。最后，通过对不同转速下系统的位移-速度相图进行绘制和分析，展示了系统从有序状态逐渐过渡到混沌状态的过程。适合人群：机械工程领域的研究人员和技术人员，尤其是对非线性动力学和混沌理论感兴趣的学者。使用场景及目标：适用于研究齿轮-轴-轴承系统的动态行为，特别是探索其在高转速条件下的非线性和混沌现象。目标是帮助读者理解复杂机械系统的动态响应机制，并提供实际的MATLAB代码用于实验验证。阅读建议：读者需要具备一定的MATLAB编程基础以及机械动力学的知识背景。建议在阅读过程中亲自运行提供的MATLAB代码，以便更好地理解和掌握文中所介绍的技术方法。

netty-codec-mqtt-4.1.65.Final.jar中文-英文对照文档.zip

05-13

# 压缩文件中包含：中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖源代码下载地址 # 本文件关键字： jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件；

汽车安全领域JFOLD安全气囊仿真折叠教程及K文件解析