数据分析与数据挖掘
文章平均质量分 78
分享数据分析与挖掘笔记与竞赛实战
GoAI
CSDN人工智能领域博客专家、新星计划计算机视觉方向导师、内容合伙人。阿里云社区专家博主、百度飞桨PPDE、飞桨校领航团团长、开源特训营导师,曾获多次AI比赛奖项及大厂实习,长期专注大数据与人工智能知识分享,相关合作和交流可私信。
展开
-
数据挖掘比赛笔记总结
总结数据挖掘流程,数据清洗之异常值处理的常用方法,异常值的处理箱型图原创 2021-09-22 23:52:06 · 1749 阅读 · 1 评论 -
Python数据分析与挖掘实战总结
大数据专业硕士在读,CSDN人工智能领域博客专家,阿里云专家博主,专注大数据与人工智能知识分享。🎉。原创 2021-02-05 14:12:53 · 14542 阅读 · 6 评论 -
罗盘复杂网络教程—3步轻松构建社团检测任务
作为复杂网络领域中重要的课题之一,社团检测有助于揭示网络中存在的功能性模块或群集,旨在于仅利用网络中蕴含的来识别模块,并可能进而识别它们的层次组织。社团检测在各个领域具有重要的应用,可以帮助深入理解复杂系统潜在的模式和规律。在罗盘复杂网络计算平台中,提供了多种社团检测算法,方便用户进行相关分析。在罗盘复杂网络计算平台中原创 2024-06-28 11:38:45 · 1297 阅读 · 0 评论 -
数学建模竞赛全面指南:华为杯国赛数学建模
华为杯全国研究生数学建模竞赛是由华为公司主办的一项面向全国研究生的数学建模竞赛。该竞赛旨在通过实际问题的建模和解决,培养研究生的创新能力和团队合作精神,推动科技创新和应用。华为杯竞赛分为初赛和决赛两个阶段。初赛阶段,参赛团队需要在规定时间内完成一道实际问题的建模和解答,并将答案提交给评委进行评审。原创 2023-09-15 20:53:21 · 4957 阅读 · 7 评论 -
美赛建模春季赛来啦,建模比赛经验分享
各位小伙伴好,美国大学生数学建模竞赛即将开始啦,参赛的小伙伴都准备好了吗?没有准备好的话,楼主本人建模竞赛经历十分丰富,从事数学建模6年,获奖也比较多,目前获奖率是95%,并且参加的比赛含金量还是挺高的,这些获奖也帮助同学顺1.比赛时间:3月31日早上8点-4月4日早上9点2.参加过美赛的同学也能继续参加3.两个比赛的名称是相同的,也就是说最后出来的证书是跟美赛一样的。原创 2023-03-05 17:49:35 · 10554 阅读 · 20 评论 -
机器学习Sklearn学习总结
sklearn是机器学习中一个常用的python第三方模块,,里面对一些常用的机器学习方法进行了封装,在进行机器学习任务时,并不需要每个人都实现所有的算法,只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。 机器学习任务通常包括分类(Classification)和回归(Regression),常用的分类器包括SVM、KNN、贝叶斯、线性回归、逻辑回归、决策树、随机森林、xgboost...原创 2022-01-22 16:13:19 · 3615 阅读 · 0 评论 -
数学建模笔记总结
此篇主要为数学建模资料总结,包括统计建模、机器学习建模介绍及建模使用工具、相关比赛介绍,仅用于个人学习,部分为网络资源,侵权联系删除!原创 2022-09-14 14:09:54 · 2513 阅读 · 6 评论 -
数学建模笔记总结
本文主要介绍数学建模常用方法、工具及论文相关模版,正文主要介绍数据建模常见算法及利用python数据分析流程,后续将逐步对每个模型算法展开详细介绍。原创 2022-05-04 09:16:32 · 2770 阅读 · 0 评论 -
数据分析流程总结
企业数据处理流程:1.了解产品/运营的需求(需要解决什么问题?定义指标和口径)2.数据收集(数据准备, 数据调研!!接口调取,数据库,数据仓库(首先检查),消息队列)3.数据处理(数据清洗 ETL ,缺失值,重复值,异常值确认后剔除,合并多个数据集,数据类型变换)4.数据分析阶段:指标分析,指标拆解,针对各个影响因素进行比较5.数据...原创 2021-01-06 09:44:19 · 957 阅读 · 0 评论 -
Kettle工具使用及总结
Kettle工具使用及总结,kettle主要用于数据清洗,即常见ETL工具,拥有图形化界面且免费的优点。其下载包直接解压打开就能用,遇到的问题:1.连接MySQL报错:①报错:Driver class 'org.gjt.mm.mysql.Driver' could not be found, make sure the 'MySQL' driver (jar file) is installed.org.gjt.mm.mysql.Driver原因:没有识别原创 2021-05-03 00:20:40 · 7483 阅读 · 1 评论 -
Python数据分析(二):DataFrame基本操作
Dataframe操作总结参考:https://www.cnblogs.com/bethansy/p/8323763.html一、查看数据(查看对象的方法对于Series来说同样适用)1.查看DataFrame前xx行或后xx行a=DataFrame(data);a.head(6)表示显示前6行数据,若head()中不带参数则会显示全...原创 2020-03-10 23:52:08 · 7071 阅读 · 0 评论 -
Python数据分析(一):Pandas、Numpy
作为python数据分析库,Pandas是基于NumPy数组构建的,使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的,而NumPy更适合处理统一的数值数组数据。Numpy:https://www.runoob.com/numpy/numpy-tutorial.htmlPandas:https:...原创 2020-02-10 09:22:25 · 856 阅读 · 0 评论 -
Pandas学习导图
Pandas在线学习网站(强烈推荐):http://joyfulpandas.datawhale.club/Content/ch1.htmlPandas学习导图原创 2021-03-04 21:52:22 · 168 阅读 · 1 评论 -
Python实现对nginx日志access.log统计
需求:统计nginx日志里访问量最大的10个IP1.awk实现 awk '{a[$1]++}END{for(i in a)print i ":" a[i]}' |sort -nr |head -n 102.python脚本# !/usr/bin/python# coding=utf8log_file = "data/access.log"ip = {}with open(log_file) as f: for i in f.readlines(): .原创 2021-02-16 15:28:22 · 1325 阅读 · 2 评论 -
动手学习数据分析(五)——数据建模及模型评估
数据建模及模型评估1.特征工程1.1 缺失值填充对分类变量缺失值:填充某个缺失值字符(NA)、用最多类别的进行填充 对连续变量缺失值:填充均值、中位数、众数2.模型搭建处理完前面的数据我们就得到建模数据,下一步是选择合适模型在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习.除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定刚开始我们总是先尝试使用一个基本的模型来作为其baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型原创 2021-07-22 00:40:35 · 433 阅读 · 0 评论 -
动手学习数据分析(四)——数据可视化
数据可视化导入相关库:import pandas as pdimport numpy as npimport matplotlib.pyplot as plt导入数据:text = pd.read_csv(r'result.csv')text.head()# 可视化展示泰坦尼克号数据集中男女中生存人数分布情况sex = text.groupby('Sex')['Survived'].sum()sex.plot.bar()plt.title('survived_count原创 2021-07-18 18:40:35 · 337 阅读 · 1 评论 -
动手学习数据分析(三)——数据重构
数据重构1.数据的合并首先将所有文件都载入text_left_up = pd.read_csv("data/train-left-up.csv")text_left_down = pd.read_csv("data/train-left-down.csv")text_right_up = pd.read_csv("data/train-right-up.csv")text_right_down = pd.read_csv("data/train-right-down.csv")合原创 2021-07-18 00:20:59 · 169 阅读 · 0 评论 -
动手学习数据分析(二)——数据处理
数据处理总结:缺失值处理该数据集缺失的都是类别特征里的,且部分类别特征与某些匿名变量线性相关性强考虑填充新的值,比如-1填充众数、平均数(需要取整),knn邻近(速度慢)异常值处理识别:箱型图识别3σ识别处理:边界值替换映射到新维度μ,μ(正常值)=0,μ(异常值)= function(异常值)不处理,与原数据一起归一化|标准化分桶法(分箱法),单正常值要一起处理特征选择:PCA相关性分析,剔除相关性高的类别,仅保留其中一类或少数类通过添加噪声体现特征重要...原创 2021-07-16 00:49:08 · 186 阅读 · 0 评论 -
动手学习数据分析(一)——数据探索性分析
Task01-数据加载及探索性数据分析1.1.2os.getcwd() 查看当前工作目录read_csv 从文件、URL、文件型对象中加载带分隔符的数据,默认分隔符为逗号,read_csv中每一个字符串作为一列,所以输出格式为 [891 rows x 12 columns]read_table 从文件、URL、文件型对象中加载带分隔符的数据,默认分隔符为制表符(“ \t ”),read_table中每一行字符串为一列,输出格式为 [891 rows x 1 columns]通过读取时.原创 2021-07-14 00:16:53 · 228 阅读 · 0 评论 -
数据挖掘二手车价格预测 Task05:模型融合
模型融合是kaggle等比赛中经常使用到的一个利器,它通常可以在各种不同的机器学习任务中使结果获得提升。Stacking相关理论介绍1) 什么是 stacking简单来说 stacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。将个体学习器结原创 2021-04-25 23:53:30 · 510 阅读 · 0 评论 -
数据挖掘-二手车价格预测 Task04:建模调参
数据挖掘-二手车价格预测 Task04:建模调参Step 1:导入函数工具箱## 基础工具import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.special import jnfrom IPython.display import display, clear_outputi原创 2021-04-22 17:22:31 · 407 阅读 · 0 评论 -
数据挖掘-二手车价格预测 Task03:特征工程
一、特征工程理论:常见的特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式: log(1+x1+median)log(\frac{1+x}{1+median})log(1+median1+x)数据分桶:等频分桶;等距分桶;Best-KS 分桶(类似利用基尼指数进行二分类);卡方分桶;缺失值处理:原创 2021-04-17 18:13:07 · 625 阅读 · 0 评论 -
数据挖掘-二手车价格预测 Task02:数据分析
Task02:数据分析EDA目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。 完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。1 载入各种数据科学以及可视化库import warningswarnin原创 2021-04-15 12:04:50 · 368 阅读 · 0 评论 -
数据挖掘-二手车价格预测 Task01:赛题理解
数据挖掘-二手车价格预测 Task01:赛题理解1.赛题概况赛题以预测二手车的交易价格为任务,数据集来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。赛题链接:https://tianchi.aliyun.com/competition/entrance/231784/introdu原创 2021-04-13 23:33:38 · 428 阅读 · 0 评论