csdnshenjiaye-CSDN博客

原创 python脚本自动生成mysql建表语句

自动生成mysql建表语句平时在设计号表结构后，还得写建表语句，其实可以让脚本来完成这样重复的工作，python代码如下# -*- coding=utf-8 -*-#coding=utf-8import xlrdimport osdef convert_type(data_type): """Normalize MySQL `data_type`""" if '...

2020-02-19 17:09:08 2785

原创 part1:sora技术

本次学习了解到了最新的sora视频能里有多强，期待进一步的技术学习及代码实践，AI时代跟上时代的脚步。

2024-03-01 01:04:48 346

自定义损失函数PyTorch在torch.nn模块为我们提供了许多常用的损失函数，比如：MSELoss，L1Loss，BCELoss...... 但是随着深度学习的发展，出现了越来越多的非官方提供的Loss，比如DiceLoss，HuberLoss，SobolevLoss...... 这些Loss Function专门针对一些非通用的模型，PyTorch不能将他们全部添加到库中去，因此这些损失函数的实现则需要我们通过自定义损失函数来实现。另外，在科学研究中，我们往往会提出全新的损失函数来提升模型...

2022-03-20 02:28:29 279

原创 Task01：PyTorch模型定义

Task01：PyTorch模型定义

2022-03-17 01:46:43 119

原创 Task15：集成学习案例二（蒸汽量预测）

集成学习案例二（蒸汽量预测）背景介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。我们如何使用以上的信息，根据锅炉的工况，预测产生的蒸汽量，来为我国的工业届的产量预测贡献自己的一份

2021-05-23 19:06:30 279

原创 Task12:Blending集成学习算法

Uniform Blending(均匀融合)这一部分从误差的角度介绍最基本的Uniform Blending(均匀融合)的一些理论依据，Uniform Blending的分类的模型如下，实际上就是少数服从多数的原则:G(x)=sign(∑t=1T1⋅gt(x))G(x)=sign(∑t=1T1⋅gt(x))回归模型如下，直接求T个模型g的结果的平均值:G(x)=1T∑t=1T1⋅gt(x)G(x)=1T∑t=1T1⋅gt(x)下面以回归问题分析误差。预期g1,g2,⋯,g..

2021-05-12 00:24:20 278

原创 Task13:Stacking集成学习算法

一、概念理解Stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。Stacking 的基础层通常包括不同的学习算法，因此stacking ensemble往往是异构的。二、执行步骤假设有1000个样本，70%的样本作为训练集，30%的样本作为测试集。STEP1：在训练集上采用算法A、B、C等训练出一系列基学习器。STEP2：用这些基学习器的输出结果组成新的训练集，在其上训练一个元学习器（meta-classifier，通常

2021-05-12 00:20:04 380

转载 Task11：XGBoost算法分析与案例调参实例

一. 前言XGBoost是提升方法中的一个可扩展的机器学习系统。XGBoost在许多机器学习和数据挖掘问题中产生了广泛的影响。2015年发表在Kaggle竞赛的博客的29个冠军解决方案中，有17个是使用XGBoost解决的，其中有8个是仅使用了XGBoost方法去训练模型，剩余的是用XGBoost和其他模型相结合使用的。相比较而言，第二个受欢迎的方法是深度神经网络，有11个是使用该方法的。XGBoost成功的最重要因素就是它在任何场景下的可扩展性。XGBoost系统在单台机器上的运行速度比现有流行的解决

2021-04-27 00:05:59 534

转载 Task10：前向分布算法与梯度提升决策树

Adaboost算法的另一种解释Adaboost算法还有另一种解释，即：可以认为Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。前向分布算法在Adaboost算法中，我们的最终目的是通过构建弱分类器的线性组合：来得到最终分类器。而我们在看看加法模型：其中，...

2021-04-24 00:25:17 158

转载 Task09:Boosting的思路与Adboost算法

Adaboost思想AdaBoost是最著名的Boosting族算法。开始时，所有样本的权重相同，训练得到第一个基分类器。从第二轮开始，每轮开始前都先根据上一轮基分类器的分类效果调整每个样本的权重，上一轮分错的样本权重提高，分对的样本权重降低。之后根据新得到样本的权重指导本轮中的基分类器训练，即在考虑样本不同权重的情况下得到本轮错误率最低的基分类器。重复以上步骤直至训练到约定的轮数结束，每一轮训练得到一个基分类器。可以想象到，远离边界（超平面）的样本点总是分类正确，而分类边界附近的样本点总是有大概率

2021-04-20 23:58:03 122

原创 Task08:Bagging的原理和案例分析

Bagging算法（英语：Bootstrapaggregating，引导聚集算法），又称装袋算法，是机器学习领域的一种团体学习算法。最初由Leo Breiman于1996年提出。Bagging算法可与其他分类、回归算法结合，提高其准确率、稳定性的同时，通过降低结果的方差，避免过拟合的发生。简介Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练几个不同的模型，然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子，被称为模型平均（modelaveraging）。采...

2021-04-18 00:29:38 312

原创 Task7：投票法的思路

一、基础原理在所有集成学习方法中，最直观的是多数投票。因为其目的是输出基础学习者的预测中最受欢迎（或最受欢迎）的预测。多数投票是最简单的集成学习技术，它允许多个基本学习器的预测相结合。与选举的工作方式类似，该算法假定每个基础学习器都是投票者，每个类别都是竞争者。为了选出竞争者为获胜者，该算法会考虑投票。将多种预测与投票结合起来的主要方法有两种：一种是硬投票，另一种是软投票。我们在这里介绍两种方法。这种投票分类器往往比单个的最佳分类器获得更高的准确率。事实上，即使每个分类器都是一个弱的学习者(

2021-04-13 23:29:22 172

原创 Task6：掌握分类问题的评估及超参数调优

1.超参数简介1.1超参数的“学院派”定义在机器学习的过程中，超参= 在开始机器学习之前，就人为设置好的参数。模型参数=通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果1.2怎么决定超参数1. 定义关于模型的更高层次的概念，如复杂性或学习能力。2. 不能直接从标准模型培训过程中的数据中学习，需要预先定义。3. 可以通过设置不同的值，训练不同的模型和选择更好的测试值来决定1.3超参数的“通俗”定义超参数也是一种参数，

2021-03-28 16:52:07 723

原创 Task05：掌握基本的分类模型

1.常用的分类模型简介sklearn作为机器学习的集成包，囊括了很多常用的机器学习算法，贝叶斯，KNN，逻辑回归，随机深林，决策树，GBDT，SVM都被收录其中。其中KNN属于无监督学习模型，贝叶斯，逻辑回归，随机深林，决策树，GBDT，SVM均属于有监督学习模型。2.分类模型详解2.1.朴树贝叶斯朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数Y=f(

2021-03-27 19:55:07 259

原创 task4：掌握回归模型的评估及超参数调优

1.常用的回归模型评估指标平均绝对误差 Mean Absolute Error(MAE)MAE用来描述预测值和真实值的差值。数值越小越好。假设????????是真实值，????????是相对应的预测值，则n个样本的MAE可由下式出给：????????????=1????∑????=1????|????????−????????|MAE优缺点：虽然平均绝对误差能够获得一个评价值，但是你并不知道这个值代表模型拟合是优还是劣，只有通过对比才能达到效果。均方误差 Mean Squared Err

2021-03-25 00:11:11 910

转载 task3：掌握偏差和方差理论

1、方差、偏差、噪声是什么？首先，我觉得需引出周志华《机器学习》对它们的定义：偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了算法本身的拟合能力。方差度量了同样大小的训练集的变动所导致的学习性能变化，即刻画了数据扰动所造成的影响。噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。在一开始学习的时候，偏差其实比较好理解，但方差一直云里雾里的，直到看到了西瓜书的定义，一下子就对方差的定义清晰了起来。要进一步理解，我觉得还是要看看它们的数学

2021-03-21 23:56:38 176

原创 task2:基本的回归模型

回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。通常使用曲线/线来拟合数据点，目标是使曲线到数据点的距离差异最小。1.线性回归线性回归是回归问题中的一种，线性回归假设目标值与特征之间线性相关，即满足一个多元一次方程。通过构建损失函数，来求解损失函数最小时的参数w和b。通长我们可以表达成如下公式：y^为预测值，自变量x和因变量y是已知的，而我们想实现的是预测新增一个x，其对应的y是多少。因.

2021-03-18 00:00:17 128

原创 Task01:机器学习的三大主要任务

1.机器学习历史接触可挺久的机器学习了，这次有机会重头开始学习机器学习，感觉机器学习的发展史需要再梳理一下了机器学习阶段年份主要成果代表人物人工智能起源 1936 自动机模型理论阿兰•图灵（Alan Turing） 1943 MP模型沃伦•麦卡洛克（Warren McCulloch）、沃特•皮茨（WalterPitts） 1951 符号演算冯• 诺依曼（John von Neumann） 1950 逻辑.

2021-03-16 00:02:56 206

原创 Task02:baseline学习及改进

赛题简介赛题背景发生在热带太平洋上的厄尔尼诺-南方涛动(ENSO)现象是地球上最强、最显著的年际气候信号。通过大气或海洋遥相关过程，经常会引发洪涝、干旱、高温、雪灾等极端事件，对全球的天气、气候以及粮食产量具有重要的影响。准确预测ENSO，是提高东亚和全球气候预测水平和防灾减灾的关键。本次赛题是一个时间序列预测问题。基于历史气候观测和模式模拟数据，利用T时刻过去12个月(包含T时刻)的时空序列（气象因子），构建预测ENSO的深度学习模型，预测未来1-24个月的Nino3.4指数数据描述数

2021-02-26 00:24:29 163

原创 task1:比赛全流程体验

Docker提交本次竞赛的Docker提交大致可以分为两小块：线下文件准备好：包括DockerFile，代码，预测的代码； Build同时pull提交如果之前没有提交过docker，可以根据这篇教程熟悉一下：https://tianchi.aliyun.com/forum/postDetail?spm=5176.12586969.1002.9.51df4127FoZKeL&postId=165595线下文件准备Requirement运行代码所依赖的python库，缺什么就把需

2021-02-22 00:30:04 103

原创 Task 5 Neo4j 图数据库查询

目录Datawhale 知识图谱组队学习之 Task 5 Neo4j 图数据库查询目录一、 Neo4介绍 1.1 Neo4介绍 1.2 Cypher 介绍 1.3 Neo4j 图数据库查询二、基于知识图谱的问题系统主体类 AnswerSearching 框架介绍三、代码分模块介绍参考资料一、 Neo4介绍1.1 Neo4介绍Neo4j是一个世界领先的开源图形数据库，由Java编写。图形数据库也就意味着它的数据并非保存在表或集合中

2021-01-17 23:20:43 197

原创 Task 4 用户输入-＞知识库的查询语句

Datawhale 知识图谱组队学习之 Task 4 用户输入->知识库的查询语句目录一、引言二、什么是问答系统？ 2.1 问答系统简介 2.2 Query理解 2.2.1 Query理解介绍 2.2.2 意图识别 2.2.3 槽值填充三、任务实践四、主体类 EntityExtractor 框架介绍五、命名实体识别任务实践 5.1 命名实体识别整体思路介绍 5.2 结合代码介绍 5.2.1 构建

2021-01-16 00:55:28 110

原创 Task 3 Neo4j图数据库导入数据

目录Datawhale 知识图谱组队学习之 Task 3 Neo4j图数据库导入数据目录一、引言二、Neo4j简介 2.1 基本概念 2.2 索引 2.3 Neo4j的优势 2.4 环境部署 2.4.1 运行环境 2.4.2 neo4j安装及使用三、Neo4j 数据导入 3.1 数据集简介 3.2 数据导入 3.2.1 Neo4j 账号密码设置 3.2.2 导入数据 3.3 知识图谱展示 3

2021-01-13 23:19:12 101

原创 Task 2 基于医疗知识图谱的问答系统操作介绍

一、引言该项目主要分为两部分：第一部分：搭建知识图谱。该部分的具体讲解将在Datawhale 知识图谱组队学习之 Task 3 Neo4j图数据库导入数据进行介绍；第二部分：启动问答测试。构建一个简单的基于知识图谱的对话系统，该部分的具体讲解将在Datawhale 知识图谱组队学习之 Task 4 用户输入->知识库的查询语句和Datawhale 知识图谱组队学习之 Task 5 Neo4j 图数据库查询进行分别介绍；本节的核心目标是从全局对项目...

2021-01-12 23:47:22 118

原创 Task 1 知识图谱介绍

目录Datawhale 知识图谱组队学习之 Task 1 知识图谱介绍目录一、知识图谱简介 1.1 引言 1.2 什么是知识图谱呢？ 1.2.1 什么是图（Graph）呢？ 1.2.2 什么是 Schema 呢？ 1.3 知识图谱的价值在哪呢？二、怎么构建知识图谱呢？ 2.1 知识图谱的数据来源于哪里？ 2.2 信息抽取的难点在哪里？ 2.3 构建知识图谱所涉及的技术？ 2.4、知识图谱的具体构建技术是什么？ 2

2021-01-11 23:06:22 116

原创机器学习算法（二）: 朴素贝叶斯(Naive Bayes)

1.1 朴素贝叶斯的介绍朴素贝叶斯算法（Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到，有着坚实的数学基础，以及稳定的分类效率。NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。什么是条件概率，我们从一个摸球的例子来理解。我们有两个桶：灰色桶和绿色桶，一共有7个小球，4个蓝色3个紫色，分布如下图：从这7个球中，随机选择1个球

2020-12-25 00:11:37 763

原创机器学习算法（一）: 基于逻辑回归的分类预测

1 逻辑回归的介绍和应用1.1 逻辑回归的介绍逻辑回归（Logistic regression，简称LR）虽然其中带有"回归"两个字，但逻辑回归其实是一个分类模型，并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热，但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且，最为突出的两点就是其模型简单和模型的可解释性强。逻辑回归模型的优劣势:优点：实现简单，易于理解和实现；计算代价不高，速度很快，存储资源低；缺点：容易欠拟合，分类精度可能不高

2020-12-22 23:40:07 182

原创零基础入门推荐系统【排序模型+模型融合】Task5

排序模型通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是：LGB的排序模型 LGB的分类模型深度学习的分类模型DIN

2020-12-06 20:40:04 229

原创零基础入门推荐系统【特征工程】Task4

制作特征和标签，转成监督学习问题我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性， words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding特征，比如W2V等用户的设备特征信息

2020-12-04 23:55:42 170

原创零基础入门推荐系统【多路召回】Task3

多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。上图只是一个多路召回的例子，也就是说可以使用多种不同的策略来获

2020-11-30 23:29:25 307

原创零基础入门推荐系统【数据分析】Task2

数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据，具体的文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的基本属性，文章基本属性，以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。建议：当特征工程和模型调参已经很难继续上分了，可以回来在重新从新的角度去分析这些数据，或许可以找到上分的灵感导包%matplotlib inlineimport pandas as pdimport

2020-11-27 23:22:55 154

原创 Task01：赛题理解+Baseline

赛题理解赛题理解是切入一道赛题的基础，会影响后续特征工程和模型构建等各种工作，也影响着后续发展工作的方向，正确了解赛题背后的思想以及赛题业务逻辑的清晰，有利于花费更少时间构建更为有效的特征模型，在各种比赛中，赛题理解都是极其重要且必须走好的第一步，今天我们就从赛题的理解出发，首先了解一下这次赛题的概况和数据，从中分析赛题以及大致的处理方式，其次我们了解模型评测的指标，最后对赛题的理解整理一些经验。赛题简介此次比赛是新闻推荐场景下的用户行为预测挑战赛，该赛题是以新闻APP中的新闻推荐为

2020-11-25 22:09:27 244

原创 Task07：类、对象与魔法方法

类与对象1. 对象 = 属性 + 方法对象是类的实例。换句话说，类主要定义对象的结构，然后我们以类为模板创建对象。类不但包含方法定义，而且还包含所有实例共享的数据。封装：信息隐蔽技术我们可以使用关键字class定义 Python 类，关键字后面紧跟类的名称、分号和类的实现。【例子】class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 1..

2020-08-05 21:28:34 298

原创 Task06: 函数与Lambda表达式

函数与Lambda表达式1. 函数还记得 Python 里面“万物皆对象”么？Python 把函数也当成对象，可以从另一个函数中返回出来而去构建高阶函数，比如：参数是函数返回值是函数函数的定义函数以def关键词开头，后接函数名和圆括号()。函数执行的代码以冒号起始，并且缩进。 return [表达式] 结束函数，选择性地返回一个值给调用方。不带表达式的return相当于返回None。def functionname(parameters): "函数_文档字符串"

2020-08-02 12:40:00 186

转载 Task06：基于深度学习的文本分类3

什么是BERT？你一定听说过BERT，也知道了它是多么不可思议以致改变了NLP的领域格局，但BERT究竟是什么？以下是BERT团队对该框架的描述：BERT全称BidirectionalEncoderRepresentations from Transformers（Transformers的双向编码表示），对未标注的文本，通过上下文约束预训练深层双向表示。训练完成后，只需要对BERT预训练模型进行fine-tune，再加上针对特定任务的输出层就可以取得SOTA结果。对新人来说这样的解释不够明..

2020-08-02 12:05:51 391

原创字典、集合和序列

字典1. 可变类型与不可变类型序列是以连续的整数为索引，与此不同的是，字典以"关键字"为索引，关键字可以是任意不可变类型，通常用字符串或数值。字典是 Python 唯一的一个映射类型，字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型X是不是可变类型的呢？两种方法：麻烦方法：用id(X)函数，对 X 进行某种操作，比较操作前后的id，如果不一样，则X不可变，如果一样，则X可变。便捷方法：用hash(X)，只要不报错，证明X可被哈希，即不可变，反过来不...

2020-07-31 00:22:47 1655 1

原创 Task5 基于深度学习的文本分类2-1Word2Vec

使用gensim训练word2vec如果在以词为基本单元输入的自然语言处理任务中，都避免不了使用词的表示，词的表示有很多种，这里主要介绍的就是词向量，word2vec是目前比较通用的训练词向量的工具，使用Gensim模块，可以使词向量的训练变的简单，那么我们知道对于word2vec来说，不论的Skip-Gram models还是CBOW models，他们的输入以及输出都是以单词为基本单位的，只是他们对应的输入以及输出不一样：Skip-Gram models：输入为单个词，输出目标为多个上下文单词；

2020-07-30 23:48:02 175

原创 Task04：列表、元组和字符串

列表简单数据类型整型<class 'int'> 浮点型<class 'float'> 布尔型<class 'bool'>容器数据类型列表<class 'list'> 元组<class 'tuple'> 字典<class 'dict'> 集合<class 'set'> 字符串<class 'str'>1. 列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的 Pytho

2020-07-28 23:32:20 103

test_create_table.xls

空空如也