蜗牛海胆-CSDN博客

原创 Coogle学习 LightGBM 任务三

任务3：分类、回归和排序任务步骤1 ：学习LightGBM中sklearn接口的使用，导入分类、回归和排序模型。步骤2 ：学习LightGBM中原生train接口的使用。步骤3 ：二分类任务使用make_classification，创建一个二分类数据集。使用sklearn接口完成训练和预测。使用原生train接口完成训练和预测。步骤4 ：多分类任务使用make_classification，创建一个多分类数据集。使用sklearn接口完成训练和预测。使用原生train接口完成

2022-01-12 21:59:28 2573

原创 Coogle组队学习1-2月 LightGBM 任务一和二

任务1：模型训练与预测步骤1：导入LightGBM库步骤2：使用LGBMClassifier对iris进行训练。步骤3：将预测的模型对iris进行预测。1.1 导包import numpy as npimport pandas as pdimport lightgbm as lgbimport jsonfrom sklearn import datasets# 读取数据iris = datasets.load_iris() #载入数据集# iris1.2 构建数据集from

2022-01-08 21:06:02 1144

原创 Task03 基于机器学习的文本分类

文章目录Task03 基于机器学习的文本分类0. 数据准备1. TFIDF 提取文本特征2. 使用TFIDF 特征和线性模型完成训练和预测3. 使用TFIDF 特征和 XGBoost 完成训练和预测Task03 基于机器学习的文本分类本次学习活动来自Coogle数据科学：30天入门数据竞赛学习内容来自于：阿里云天池 - 零基础入门NLP - 新闻文本分类0. 数据准备# 导包 import numpy as npimport pandas as pdimport matplotli

2021-10-15 09:01:19 898

原创 Task02_数据可视化

本次学习活动来自Coogle数据科学：30天入门数据竞赛学习内容来自于：阿里云天池 - 零基础入门NLP - 新闻文本分类import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom tqdm import tqdmdata_path = 'data/'save_path = 'result/'train_df = pd.read_csv(data_path+'train_set.csv',sep='.

2021-10-06 19:53:10 457

原创 task01_报名比赛完成数据读取

本次学习来自Coogle数据科学：30天入门数据竞赛学习赛来自于：https://tianchi.aliyun.com/competition/entrance/531810/information读取数据import numpy as npimport pandas as pddata_path = 'data/'save_path = 'result/'train_data = pd.read_csv(data_path+'train_set.csv')test_data = p

2021-10-04 09:01:36 263

原创踩坑指南：docker版本的milvus安装

看了很多教程，很多都是告诉我，拉取milvus的docker镜像：sudo docker pull milvusdb/milvus:0.10.5-cpu-d010621-4eda95然后使用该镜像创建docker容器，创建容器会给出一长串命令，比如这种：sudo docker run -d --name milvus_cpu -p 19530:19530 -p 19121:19121 -p 9091:9091 \-v /var/lib/milvus/db:/var/lib/milvus/db \

2021-08-30 16:01:30 4346 3

原创 NLP入门系列1：attention和transformer

本文参考来源：https://github.com/datawhalechina/Learn-NLP-with-Transformers（教程里带的图片实在是太直观了，这里就照搬了）NLP入门系列1：attention和transformer1.Attention1.1 Seq2Seq模型1.2 Attention2. Transformer2.1 Self-Attention2.1.1 Self-Attention的作用2.1.2 Self-Attention的具体结构2.2 multi-head.

2021-08-18 21:58:25 833

原创动手学习数据分析task5

第三章模型搭建和评估import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] =

2021-07-22 21:31:14 190

原创动手学习数据分析task4

参考来源：https://github.com/datawhalechina/hands-on-data-analysis2 第二章：数据可视化开始之前，导入numpy、pandas以及matplotlib包和数据# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可%matplotlib inlineimport numpy as npimport pand.

2021-07-19 21:10:23 152

原创动手学习数据分析task3

复习：在前面我们已经学习了Pandas基础，第二章我们开始进入数据分析的业务部分，在第二章第一节的内容中，我们学习了数据的清洗，这一部分十分重要，只有数据变得相对干净，我们之后对数据的分析才可以更有力。而这一节，我们要做的是数据重构，数据重构依旧属于数据理解（准备）的范围。开始之前，导入numpy、pandas包和数据# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvdf = pd.read_cs

2021-07-17 10:08:57 224

原创动手学习数据分析task2

【回顾&引言】前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理，让大家了解数据分析的一些操作，主要做了数据的各个角度的观察。那么在这里，我们主要是做数据分析的流程性学习，主要是包括了数据清洗以及数据的特征处理，数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。开始之前，导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvdf = pd.read_csv

2021-07-15 23:31:11 130

原创动手学习数据分析task1

复习:这门课程得主要目的是通过真实的数据，以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作。知道了课程的目的之后，我们接下来我们要正式的开始数据分析的实战教学，完成kaggle上泰坦尼克的任务，实战数据分析全流程。这里有两份资料：教材《Python for Data Analysis》和 baidu.com &google.com（善用搜索引擎）1 第一章：数据载入及初步观察1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/o

2021-07-13 22:19:26 233

原创联邦学习调研报告

文章目录1. 联邦学习1.1 数据孤岛1.2 联邦学习背景1.3 联邦学习的概念及作用1.4 联邦学习分类1.4.1 横向联邦学习（Horizontal Federated Learning）1.4.1.1 概念1.4.1.2 学习过程1.4.2 纵向联邦学习（Vertical Federated Learning）1.4.2.1 概念1.4.2.2 学习过程1.4.3 联邦迁移学习（Federated Transfer Learning，FTL）1.4.3.1 概念1.4.3.2 学习过程2. 金融风控常

2021-07-02 22:46:08 1040 3

转载图神经网络-lesson4-数据完整存储于内存的数据集类+节点预测与边预测任务实践

文章目录1. 数据完整存储于内存的数据集类1.1 引言1.2 `InMemoryDataset`基类简介1.3 一个简化的`InMemory`数据集类1.4 `InMemoryDataset`数据集类实例1.5 `PlanetoidPubMed`数据集类的构造1.6 `PlanetoidPubMed`数据集类的使用2. 节点预测与边预测任务实践1. 数据完整存储于内存的数据集类1.1 引言使用数据集的一般过程1.2 InMemoryDataset基类简介1.3 一个简化的InMemory数据集类

2021-06-27 17:17:58 606

原创图神经网络—lesson3—基于图神经网络的节点表征学习

文章目录1. 引言2. 准备工作2.1 获取数据集2.2 探索性数据分析2.3 可视化节点表征分布的方法3. 使用MLP神经网络进行节点分类4. 卷积神经网络（GCN）5. 图注意力神经网络（GAT）6. 作业参考来源：https://github.com/datawhalechina/team-learning-nlp/tree/master/GNN1. 引言在图节点预测或边预测任务中，首先需要生成节点表征（Node Representation）。我们使用图神经网络来生成节点表征，并通过基于监督学

2021-06-23 14:27:44 554

转载图神经网络—lesson2—消息传递图神经网络

文章目录1. 一些基本概念1.1 节点表征1.2 消息传递范式2. MessagePassing基类3. MessagePassing子类实现4. MessagePassing基类分析5. MessagePassing基类方法覆写6. 小练习参考资料来源：https://github.com/datawhalechina/team-learning-nlp/tree/master/GNN1. 一些基本概念1.1 节点表征1.2 消息传递范式消息传递范式是一种聚合邻接节点信息来更新中心节点信息的

2021-06-20 00:51:41 598

原创图神经网络—lesson1—pyG库的安装与简单图论

这里是目录1. 写在前面2. 简单图论3. 环境配置与pyG库的安装4. data类的学习1. 写在前面先在这里给datawhale做一个推广吧，本期组队学习内容：https://github.com/datawhalechina/team-learning-nlp/tree/master/GNN时隔两个月，再次开始组队学习，还是有些不习惯的。报名这次组队学习一方面是自己对这方面知识还算感兴趣（无非就是没学过，图个新鲜，每次学习都不够深入）。另一方面也是想改变一下目前比较松懈的生活方式。本次学习我要

2021-06-16 22:46:12 535 3

转载 Task15：集成学习案例二（蒸汽量预测）

蒸汽量预测参考来源：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning

2021-05-22 15:42:30 412

转载 Task14：集成学习案例一（幸福感预测）

幸福感预测背景介绍数据信息评价指标背景介绍幸福感是一个古老而深刻的话题，是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异，大如国计民生，小如路边烤红薯，都会对幸福感产生影响。这些错综复杂的因素中，我们能找到其中的共性，一窥幸福感的要义吗？该案例为幸福感预测这一经典课题，希望在现有社会科学研究外有其他维度的算法尝试，结合多学科各自优势，挖掘潜在的影响因素，发现更多可解释、可理解的相关关系。具体来说，该案例就是一个数据挖掘类型的比赛——幸福感预测的baseline。具体来说，我们需要使用包括个

2021-05-18 10:41:01 804

原创集成学习Task13 Stacking集成学习算法

Stacking1. 算法原理2. 代码实现1. 算法原理2. 代码实现

2021-05-13 10:40:29 684 1

原创集成学习Task12 Blending集成学习算法

文章目录1. 引言2. Blending 集成学习算法3. 人工数据代码实现4. 鸢尾花数据代码实现参考来源：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1. 引言先引用大佬的一个例子来简单介绍一下blending的思想。这是一个上课的例子，学生E不会做题，于是同学们都来帮忙。如图可以看到，首先是A和B同学进行计算，他俩计算的结果其实和真实值有一些差距。之后他们将自己的

2021-05-10 16:30:56 365

转载 Task11 XGBoost算法分析与案例调参实例

文章目录

2021-04-26 16:35:37 150

原创 task10前向分步算法与梯度提升决策树

文章目录

2021-04-23 23:18:12 158

原创 task9 集成学习之boosting的思路与adaboost算法

文章目录1.Boosting1.1 Bagging与Boosting1.2 Boosting理论基础1.3 Boosting原理2. Adaboost算法的原理3. Adaboost算法实现Boosting的思路与Adaboost算法前向分步算法与梯度提升决策树(GBDT)XGBoost算法与xgboost库的使用Xgboost算法案例与调参实例LightGBM算法的基本介绍参考来源：https://github.com/datawhalechina/team-learning-data-

2021-04-20 17:53:17 233

原创 task8 Bagging的原理和案例分析

文章目录1. bagging原理1.1 bootstrap sampling自助采样1.2 bagging1.3 随机森林2. bagging的案例分析1. bagging原理1.1 bootstrap sampling自助采样自助法（bootstrap）的一个通俗的解释为：有放回抽样。bootstrap的过程为，对于包含m个样本的数据集D，我们对它进行采样产生数据集D’：每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重

2021-04-14 11:10:11 152

原创集成学习task7 投票法的原理和案例分析

文章目录1. 集成学习2. 投票法的思路3. 投票法的原理4. 投票法的案例分析参考来源：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearninghttps://zhuanlan.zhihu.com/p/27689464《机器学习》，周志华，清华大学出版社1. 集成学习在上一期组队学习关于深度学习推荐系统的过程中我们发现，很多推荐系统都使用了几个不同模型的组合用于处理

2021-04-12 17:44:59 600

原创 Datawhale第23期组队学习—集成学习—task6 模型评估与超参数调优

文章目录1.k折交叉验证2. 偏差与方差3. 混淆矩阵与ROC曲线4. 超参数调优参考来源：1. https://zhuanlan.zhihu.com/p/1400407052. https://blog.csdn.net/teng_zz/article/details/980277121.k折交叉验证所谓K折交叉验证，就是将数据集等比例划分成K份。将其中的k-1份作为训练集，剩余1份作为测试集。用k-1份数据训练出的模型预测值与剩余的1份样本测试值进行对比，得出均方误差大小。之后将第2份数据作为测

2021-03-29 21:37:09 203

原创 Datawhale第23期组队学习—集成学习—task5 掌握基本的分类模型

基本分类模型1. 引言1.1 收集数据集1.2 选择度量模型性能的指标1.3 选择具体的模型进行训练2. 朴素贝叶斯3. 决策树（CART）4. 支持向量机SVM参考来源:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1. 引言在分析完波士顿房价数据之后，我们来看一下一开始提到的另一个经典数据集：鸢尾花数据。1.1 收集数据集从sklearn中导入数据集：

2021-03-28 00:06:09 186 1

原创 Datawhale第23期组队学习—深度学习推荐系统—task5 DIN

DIN1. 背景2. 模型原理2.1 特征表示2.2 base模型3. DIN的进阶4. 代码实现参考来源：https://github.com/datawhalechina/team-learning-rs/blob/master/DeepRecommendationModel/DIN.mdhttps://blog.csdn.net/friyal/article/details/83063948https://zhuanlan.zhihu.com/p/783652831. 背景阿里巴巴

2021-03-27 11:11:24 222

原创 Datawhale第23期组队学习—集成学习—task4—掌握回归模型的评估及超参数调优

参数与超参数参考来源：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning/CH2-%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E6%A8%A1%E5%9E%8B%E5%9B%9E%E9%A1%BE模型参数模型参数是模型内部的配置变量，其值可以根据数据进行估计。它们的值定义了可使用的模型模型在进行预测时需要它

2021-03-24 14:44:30 203

原创 Datawhale第23期组队学习—深度学习推荐系统—task4 NFM

NFM1. 动机2. 模型结构与原理3. 代码实现1. 动机2. 模型结构与原理3. 代码实现

2021-03-24 14:04:49 232

原创 Datawhale第23期组队学习—集成学习—task3—掌握偏差与方差理论

优化基础模型1. 引言2. 训练均方误差与测试均方误差3. 偏差-方差的权衡3.1 模型的方差3.2 模型的偏差3.3 偏差与方差的权衡4. 特征提取4.1 测试误差估计4.2 特征选择5. 压缩估计(正则化)5.1 岭回归(L2正则化的例子)5.2 Lasso回归(L1正则化的例子)6. 降维1. 引言在回归问题的基本算法中，通常使用数据集去估计模型的参数，使生成的模型尽量去估计数据集中所有的数据。对于用于生成训练模型参数的数据集称为训练集。在训练集中训练模型，通常都是会让生成的模型尽可能拟合训练数

2021-03-22 22:25:44 267

原创 Datawhale第23期组队学习—深度学习推荐系统—task3 DeepFM

DeepFM1. 引言1.1 学习总结1.2 研究背景1.3 已有模型的介绍2. DeepFM模型结构与原理2.1 FM2.2 Deep2.3 DeepFM3. 代码实现本文主要参考来源-Datawhale：https://github.com/datawhalechina/team-learning-rs/blob/master/DeepRecommendationModel/DeepFM.md1. 引言1.1 学习总结通过这段时间的学习，逐渐发现了学习过程中的一些规律。可能也是巧合，很多模型的名

2021-03-21 22:33:38 190

原创 Datawhale第23期组队学习—深度学习推荐系统—task2 Wide&Deep

目录1. 动机2. 模型结构及原理3. 代码实现文章参考来源：点击此处1. 动机在CTR预估任务中利用手工构造的交叉组合特征来使线性模型具有“记忆性”，使模型记住共现频率较高的特征组合，往往也能达到一个不错的baseline，且可解释性强。但这种方式有着较为明显的缺点：特征工程需要耗费太多精力。模型是强行记住这些组合特征的，对于未曾出现过的特征组合，权重系数为0，无法进行泛化。为了加强模型的泛化能力，研究者引入了DNN结构，将高维稀疏特征编码为低维稠密的Embedding vector，这种

2021-03-18 22:52:37 146

原创 Datawhale第23期组队学习—集成学习—task2—基本回归模型

目录1.基本回归模型1.1 偏差与方差1.1.1 偏差1.1.2 方差1.2 回归模型的评估及超参数调优1.2.1 回归模型的评估1.2.2 超参数调优1.3 线性回归1.3.1 基本概念1.3.2 模型评估1.3.3 超参数调优1.3.4 线性回归的推广（非线性回归模型）1.3.4.1 多项式回归1.3.4.2 广义可加模型（GAM）1.2 回归树1.3 支持向量机回归（SVR）2. 基本分类模型2.12.22.3 逻辑回归（logistic regression）2.4 朴素贝叶斯2.5 决策树2.6

2021-03-18 16:15:09 296

原创 Datawhale第23期组队学习—深度学习推荐系统—task1—DeepCrossing

Task1—DeepCrossing1. DeepCrossing引言2. DeepCrossing模型结构及原理2.1 Embedding Layer2.2 Stacking Layer2.3 Multiple Residual Units Layer2.4 Scoring Layer3. 学习心得学习资料来源:Datawhale这次的深度学习任务相对来说还是比较有挑战的，原因是自己的基础理论并没有掌握很好，对于这次学习中遇到的基础理论知识，会在博文中进行说明。1. DeepCrossing引言参

2021-03-16 22:35:24 204

原创 Datawhale第23期组队学习—集成学习—task1—回归、分类、无监督学习

文章内容参考：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1.0 机器学习：机器学习的一个重要的目标就是利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。数据通常由一组向量组成，这组向量中的每个向量都是一个样本，用????????来表示一个样本，其中????=1,2,3,...,????，共N个样本，每个样本????????=(????????1,????

2021-03-15 18:53:11 391 1

空空如也

空空如也