数据挖掘
文章平均质量分 58
小胖胖7
这个作者很懒,什么都没留下…
展开
-
Datawhale 零基础入门数据挖掘-Task4 建模与调参
Datawhale 零基础入门数据挖掘-Task4 建模与调参内容相关逻辑回归模型:树模型:集成模型模型对比与性能评估:模型调参:代码示例导入相关关和相关设置读取数据简单建模内容相关逻辑回归模型:理解逻辑回归模型;逻辑回归模型的应用;逻辑回归的优缺点;树模型:理解树模型;树模型的应用;树模型的优缺点;集成模型基于bagging思想的集成模型随机森林模型基于boosting思想的集成模型XGBoost模型LightGBM模型CatBoost模型模型对比原创 2021-03-21 01:55:16 · 192 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task 2 数据分析
Datawhale 零基础入门数据挖掘-Task 2 数据分析EDA分析EDA步骤其他工作EDA分析探索性数据分析(Exploratory Data Analysis,简称EDA)是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是党我们对面对大数据时代到来的时候,各种杂乱的“脏数据”,往往不知所措,不知道从哪里开始了解目前拿到手上的数据时候,探索性数据分析就非常有效。探索性数据分析是上世原创 2021-03-21 01:39:08 · 263 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task1 赛题理解
Mon 22已完成 进行中 计划中 现有任务 Adding GANTT diagram functionality to mermaidDatawhale 零基础入门数据挖掘-Task1 赛题理解学习目标数据概况train.csvtestA.csvbaseline微调读取数据提交结果又来参加打卡啦~这次选择的是一个相对而言比较简单的项目学习目标简单来说就是通过理解和分析数据,生成一个excel的结果,然后提交查看分数原创 2021-03-16 23:57:55 · 288 阅读 · 0 评论 -
AP问题的一些源码,待优化2
AP问题的一些源码,待优化2画图的codedemo case1在进一步调试完代码之后,选取了一些可以跑得通的代码做remark画图的code这一段是用来画示意图的 具体案例可以参照import numpy as npfrom scipy.sparse import csr_matriximport pandas as pdimport networkx as nximport matplotlib.pyplot as pltclass MatchingProblem: alg原创 2021-03-05 00:06:21 · 288 阅读 · 2 评论 -
AP问题的一些源码,待调试1
这里记录几个源码,回去调试首先安利一个超重要的知识点:edge-weighted-online-bipartite-matching简述Improved Analysis of RANKING for Online Vertex-Weighted Bipartite MatchingDiverse Weighted Bipartite b-Matching这唯一跑通的代码首先安利一个超重要的知识点:在md代码段里如果有注释符号,之前的时候都是一行一行敲回去现在不需要了喂!1:is all you ne原创 2021-02-28 23:20:10 · 666 阅读 · 1 评论 -
DCIC2021-Task 2 共享单车潮汐点分析
对baseline调试实际这里没有输出原创 2021-02-23 21:46:08 · 240 阅读 · 0 评论 -
DCIC2021-Task 1 赛题任务解析
系列文章目录Task 1 赛题任务解析Task 2 共享单车潮汐点分析Task 3 共享单车潮汐点建议Task 4 共享单车调度方案Task 5 单车畅行友好度方案文章目录系列文章目录任务分析赛题数据数据读取和理解数据解读baseline任务分析识别出工作日早高峰07:00-09:00潮汐现象最突出的40个区域针对Top40区域计算结果进一步设计高峰期共享单车潮汐点优化方案赛题数据共享单车轨迹数据共享单车停车点位(电子围栏)数据共享单车订单数据数据读取和理解这里直接套原创 2021-02-20 00:26:59 · 314 阅读 · 0 评论 -
Task 4 运算符、控制语句
Task 4 运算符、控制语句运算符优先级条件语句if语句switch语句select语句循环语句for循环循环嵌套循环控制语句break语句:continue语句:goto语句:运算符算术运算符和关系运算符与其他语言通用 这里总结一下逻辑运算符(主要是怕记不住)运算符 描述&& 逻辑 AND 运算符。 如果两边的操作数都是 True,则条件 True,否则为 False。| | 逻辑 OR 运算符。 如果两边的操作数有一个 True,则条件 True,否则为 False。! 逻原创 2020-12-16 13:25:48 · 126 阅读 · 0 评论 -
Task03: 变量、常量、枚举
Task03: 变量、常量、枚举变量常量枚举普通枚举自增枚举变量var:声明变量多变量声明原则//类型相同多个变量, 非全局变量var vname1, vname2, vname3 typevname1, vname2, vname3 = v1, v2, v3var vname1, vname2, vname3 = v1, v2, v3 // 和 python 很像,不需要显示声明类型,自动推断vname1, vname2, vname3 := v1, v2, v3 // 出现在 := 左原创 2020-12-15 22:15:32 · 163 阅读 · 0 评论 -
零基础入门CV赛事-Task5 模型集成
零基础入门CV赛事-Task5 模型集成知识点常用集成学习方法注意事项心得体会知识点集成学习方法深度学习中的集成学习结果后处理思路常用集成学习方法bagging VS random forest(随机森林)boosting、adaboost 、GBDTstacking集成学习的目的是通过构建并结合多个分类器来完成学习任务,通过多个学习器的结合,以期获得比单一学习期更好的泛化性能注意事项集成学习只能在一定程度上提高精度,并需要耗费较大的训练时间,因此建议先使用提高单个模型的精度原创 2020-05-25 21:24:20 · 143 阅读 · 0 评论 -
零基础入门CV赛事-Task4 模型训练与验证
零基础入门CV赛事-Task4 模型训练与验证学习目标数据集划分模型训练与验证学习目标理解验证集的作用,并使用训练集和验证集完成训练学会使用Pytorch环境下的模型读取和加载,并了解调参流程数据集划分训练集用来训练模型内参数的数据集,Classfier直接根据训练集来调整自身获得更好的分类效果验证集用于在训练过程中检验模型的状态,收敛情况。验证集通常用于调整超参数,根据几组模型验证集上的表现决定哪组超参数拥有最好的性能。同时验证集在训练过程中还可以用来监控模型是否发生过拟合原创 2020-05-25 16:42:48 · 223 阅读 · 0 评论 -
零基础入门CV赛事-Task3 字符识别模型
零基础入门CV赛事-Task3 字符识别模型一级目录二级目录三级目录CNN 概述Pytorch构建CNN模型一级目录二级目录三级目录CNN 概述略(卷积神经网络)Pytorch构建CNN模型方法1 根据baseline调参在Pytorch中构建CNN模型非常简单,只需要定义好模型的参数和正向传播即可,Pytorch会根据正向传播自动计算反向传播。在本章我们会构建一个非常简单的CNN,然后进行训练。这个CNN模型包括两个卷积层,最后并联6个全连接层进行分类。import torchtor原创 2020-05-24 17:02:03 · 194 阅读 · 0 评论 -
零基础入门CV赛事-Task2 数据读取与数据扩增
零基础入门CV赛事-Task2 数据读取与数据扩增数据读取与数据扩增学习目标图像读取报错归纳常用扩增方法数据读取与数据扩增学习目标学习Python和Pytorch中图像读取学会扩增方法和Pytorch读取赛题数据图像读取报错归纳Pillow根据baseline给出的步骤,安装pillow,但是报错,查了下是因为pillow在7.0以后的版本对相关组件不支持,但是忘记截图,就找了我在CSDN上看到的帖子,并试着用该方法,结果出现了跟评论区一样的问题。报错解释:torchvisio原创 2020-05-22 18:15:35 · 231 阅读 · 0 评论 -
Task01:赛题理解
计算机视觉实践(街景字符编码识别)Task01:赛题理解学习目标了解赛题赛题小结步骤归纳Step 1 搭环境(参考[Baseline](https://github.com/datawhalechina/team-learning/blob/f68dc9a6e749976978a86b09d4a44fbfd40c70c7/03%20%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%原创 2020-05-20 23:29:28 · 325 阅读 · 0 评论 -
Task3 Session Cookie ip代理 selenium
Task 3 session和cookie的区别Selenium 爬虫入门hello world输入和输出输入输出使用代理服务器通过命令行参数指定代理使用插件控制代理session和cookie的区别1,session 在服务器端,cookie 在客户端(浏览器)2,session 默认被存在在服务器的一个文件里(不是内存)3,session 的运行依赖 session id,而 sess...原创 2020-04-25 00:47:46 · 277 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task5 模型融合
Datawhale 零基础入门数据挖掘-Task5 模型融合一级目录二级目录三级目录模态处理一级目录二级目录三级目录神图镇楼模态处理原创 2020-04-02 15:10:12 · 892 阅读 · 0 评论 -
Task 4 模型构建与预测
Task 4 模型构建与预测名词解释1.监督学习2 无监督学习强化学习具体分类常见监督学习模型名词解释1.监督学习监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上...原创 2020-04-01 21:29:16 · 380 阅读 · 0 评论 -
二手车价格预测--特征工程task3
3.1 特征工程目标数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。3.2 内容介绍常见的特征工程包括:1.特征理解包括数据结构;定量和定性数据;数据等级等2.数据增强/数据清洗+ 识别缺失值+ 处理缺失值+ 标准化和归一化3.特征构建+ 检查数据集+ 填充分类特征+ 编码分...原创 2020-03-28 21:44:29 · 256 阅读 · 0 评论 -
零基础入门数据挖掘 - 二手车交易价格预测 Task 2 EDA
零基础入门数据挖掘 - 二手车交易价格预测 Task 2 EDAEDA 简介探索性分析的计划:本次打卡目标实战案例目标名称:二手车销量与售价有关?(提出假设)数据质量分析缺失值分析缺失值类型查看缺失情况缺失值处理方式异常值分析查看异常情况数据特征分析EDA 简介指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结...原创 2020-03-24 21:19:05 · 487 阅读 · 0 评论