Python
文章平均质量分 72
关于Python的知识
CquptDJ
倾盖如故,白头如新!
展开
-
pyspark分布式部署随机森林算法
分布式算法的文章我早就想写了,但是一直比较忙,没有写,最近一个项目又用到了,就记录一下运用Spark部署机器学习分类算法-随机森林的记录过程,写了一个demo。在大规模数据的情况下如果需要用机器学习算法,Spark是一个很好的选择,可以大大提升任务的运行速度,工业环境中效率往往是最需要的,Spark可以解决我们的分布式算法部署需求。原创 2024-02-26 14:49:53 · 1910 阅读 · 0 评论 -
实现制作动漫版的你---动漫风格迁移网络AnimeGANv2
最近居家太无聊了,无意见逛到了AI社区,发现最近AI算法热度还是很高,什么AI绘画,还有什么AI作诗,写歌。可以说,人工智能领域在一步步挑战人类的高度,从循规蹈矩的简单工作,到高难度的智慧挑战,现在已经在挑战人类最后防线—思想,创作!不过我还是觉得人工智能的路还很遥远!原创 2022-11-21 23:12:33 · 1978 阅读 · 4 评论 -
阿里天池金融数据分析赛题2:保险反欺诈预测baseline
好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了个模型,AUC就达到了0.95,排在了第二名,下图是我排名的截图,所以题目还是比较简单的,适合初学者入手。我比较喜欢做开源,因为分享也是一种快乐,如果大家对baseline代码有任何疑问,都可以提出来,我会详细解答的,也欢迎大家关注,有任何问题我都会解答!baseline的线上提交分数是0.9463,排名显示0.95.........原创 2022-07-02 15:19:05 · 13573 阅读 · 84 评论 -
阿里天池街景字符编码YOLO5方案
前言最近在做OCR相关的任务,用到了阿里天池一个街景字符识别比赛的数据集,索性就分享一下相关方案,我采用YOLO5模型,最终在平台提交分数也做到了0.924,没有经过任何优化,可以看出YOLO5的效果还是非常不错的。比赛地址链接:https://tianchi.aliyun.com/competition/entrance/531795/introduction?spm=5176.12281973.1005.7.3dd52448VtZc6t下载YOLO5模型YOLO5下载:https://githu原创 2022-06-25 16:53:13 · 4322 阅读 · 13 评论 -
2021 CCF基于UEBA的用户上网异常行为分析baseline线上0.90
2021CCF BDCI今年CCF又来了,每年都有大佬选手夺冠,也有黑马新人突出重围,对于新人来说一份baseline是很好的起点,可以更快入门数据竞赛。(大佬请忽略!!!)基于UEBA的用户上网异常行为分析结构化数据比较好入手,由于贷款违约数据有问题,所以选择了另外一个结构化赛题写了一个baseline,我只提交了一次,线上有0.8994,虽然比不上前排大佬的分数,但是对于入门来说还是可以参考下,而且提升空间还很大!比赛地址链接:https://www.datafountain.cn/compet原创 2021-09-22 22:01:00 · 2906 阅读 · 9 评论 -
机器学习模型评估——混淆矩阵
混淆矩阵什么是混淆矩阵(Confusion Matrix)?我们在做分类问题时会用到机器学习分类模型,不管是二分类还是多分类问题,我们都要对模型的性能进行评估,看看模型的分类效果是否好,有多好!我们常常会选择一个合适的评估指标进行衡量,比如我们熟悉的ACC,AUC,F1-score,召回率等等,而混淆矩阵也是和它们一样的功能,混淆矩阵可以直观的展示我们分类器对每个样本的分类情况,知道有哪些类别分正确了,哪些类别被错误地分到了其他类别,混淆矩阵就做这么个事。概括:混淆矩阵就是我们用来评估模型分类好坏的(特原创 2021-08-27 22:45:53 · 3163 阅读 · 13 评论 -
数据挖掘中特征筛选方法策略
前言数据挖掘中我们经常会遇到高维数据,特别是当我们的特征工程做得比较复杂时,这些特征可能会让我们的模型过拟合,或者很多特征是没有意义,对模型的优化起不到作用,反而会降低模型的运行效率和精度,所以我们需要对我们的特征变量进行筛选,去除掉无意义的特征,尽可能保留少而强的特征。下面是我用得最多的几个方法,也是我个人觉得最实用方法,其他特征筛选方法大家可以自行查阅资料,这里不多介绍。方差选择卡方检验相关系数互信息其他方法写在最后...原创 2021-08-01 15:01:06 · 2705 阅读 · 11 评论 -
Resnet实现猫狗识别(Tensorflow版本)
前言原创 2021-07-12 22:41:15 · 1873 阅读 · 10 评论 -
CNN实现猫狗识别(Tensorflow版本)
前言原创 2021-07-12 22:39:49 · 4303 阅读 · 18 评论 -
Opencv简单图像处理(二)
前言接着前面一篇博客,第二部分主要介绍简单的图像平滑处理和图像锐化处理图像平滑图像平滑从信号处理的角度看就是去除其中的高频信息,保留低频信息,和通信原理里面信号的处理有点类似。平滑处滤波对图像的低频分量增强,同时削弱高频分量,用于消除图像中的随机噪声,起到平滑作用。总的来说平滑处理的目的就是改善图像质量,消除噪音。同时,根据滤波器的不同方法也不同,这里就举均值滤波的方式,还有高斯加权滤波,中值滤波, 双边滤波等等,大家可以自己尝试。import cv2import numpy as npfro原创 2021-06-28 20:45:55 · 375 阅读 · 11 评论 -
Opencv简单图像处理(一)
前言最近对图像处理方面比较感兴趣,所以记录一下自己的学习过程同时也分享自己的学习结果。对于Opencv是图像处理里面不可或缺的一部分,所以我就使用Opencv来简单处理一张图片,图片来自我的最爱《权力的游戏》读取原图并打印上面代码直接读取图片然后进行打印,这里有两种输出方式,第一种是用非CV库的方式输出,所以一定要加我注释的那句话,不然RGB颜色顺序可能是乱的;第二种就不需要了,但是要加最后一句话,不然输出可能会卡或者一闪而过!import cv2import numpy as npfrom m原创 2021-06-28 17:03:24 · 751 阅读 · 12 评论 -
讯飞开发者大赛-环境空气质量评价挑战赛baseline
前言最近讯飞开发者大赛如火如荼地进行着,各赛道赛题都具有挑战性,大家都可以参与挑战大赛地址:https://challenge.xfyun.cn/环境空气质量评价挑战赛数据说明具体的数据只有报名后即可下载,数据量并不大,初赛训练集和测试集都只有几百条数据评价指标本模型依据提交的结果文件,利用均方根误差(RMSE)评价模型。(1) 样本的相对综合污染系数 IPRC,用于判断样本之间的相对污染程度。(2) 基于IPRC,计算RMSE. 其中m为样本数,y为IPRC真实值,y_pred为IPR原创 2021-06-26 09:43:27 · 1885 阅读 · 5 评论 -
数据挖掘简单可视化方法
简单数据可视化最近有不少人私信问我数据可视化的图怎么画的?让我开源一下代码。这里我就简单演示一些最基础在数据挖掘过程中用得最多的几个数据可视化方法,希望可以帮助更多的人。说明:可视化数据集采用前面民宿预测项目的数据集!1.对数据集进行缺失值统计:plt.figure(figsize=(10, 10))missing = train.isnull().sum()/len(train)missing = missing[missing > 0] #这里只画出有缺失值的属性极其比例missi原创 2021-06-17 09:09:17 · 1639 阅读 · 6 评论 -
员工满意度预测分析
前言一个基础的数据分析项目,数据集非常简单,虽然有很多处理方法都用不上就可以做到一个比较好的效果(当然也可以进行一下骚操作,可以,但没必要),但是对于入门来说是非常适合的。训练集及测试集数据获取链接:链接:https://pan.baidu.com/s/1692cGZ7igopC3-Dka9_sMA提取码:DJNB话不多说baseline代码如下:from sklearn.ensemble import RandomForestRegressorfrom sklearn.preprocess原创 2021-04-14 22:31:55 · 5783 阅读 · 16 评论 -
阿里天池心跳信号分类预测baseline
阿里天池又来了一个数据挖掘新人赛,是关于心跳信号分类的预测问题,主要针对初学者学习数据挖掘知识比赛地址链接这次数据比较有意思,和最常见的多属性结构化数据不同,本次数据是心电图数据记录,所以用一下传统的思维方法可能做出来效果并不好,但是baseline还是采用传统的方法做的,仅仅只是实现做出结果的步骤,没有优化方法,最后会提到几个优化的思路。baseline代码如下:import pandas as pdimport numpy as npfrom lightgbm import LGBMClas原创 2021-04-02 02:15:24 · 4432 阅读 · 19 评论