自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 数据挖掘——工业蒸汽量预测

一、赛题描述经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。赛题链接:工业蒸汽量预测-天池大赛-阿里云天池二、数据说明数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为目标变量。选手利用训练数据训练出模型,预测测试数据的目标变量,排名结果依据预测结果的MSE(mean square error)。三、导入相关库import pandas as pdimpor

2021-03-12 15:13:27 2634

转载 假设检验——KS检验、t检验、卡方检验

天池新人赛——工业量蒸汽预测一、赛题介绍经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。赛题链接:https://tianchi.aliyun.com/competition/entrance/231693/introduction二、数据说明数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为目标变量。选手利用训练数据训练出模型,预测测试数据的目标变量,排名结果

2021-03-03 15:58:24 16225

原创 LSTM+Attention+CRF的原理讲解

CRF简单来说一组参数theta可以唯一确定一组模型,我们需要找到一组最优参数使得训练数据中 x->y 的概率最大化。将上述最大化的目标函数P取负,转化为最小化问题,即可用反向传播算法进行优化,找到近似最优参数theta。在CRF模型中有一个简单的假设,即当前输出的标签只和上一级输出的标签以及当前的输入有关,所以Score(x, y)应该由两部分组成,一个是转移特征概率,一个是状态特征概率。什么意思呢,转移特征概率是指前一个输出标签为 B 的前提下我当前输出标签为某个值比如 I 的概率大小。而状

2020-10-12 22:58:00 4571

原创 sklearn之SVM模型详解

sklearn中SVM概述及参数详解资料一:https://www.cnblogs.com/d0main/p/10459757.html资料二:https://blog.csdn.net/icanx/article/details/96270752?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribut

2020-08-15 16:20:40 700

原创 决策树之ID3、C4.5、CART算法原理详解

学习资料:https://blog.csdn.net/choven_meng/article/details/82878018?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159566999819195264530507%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=15956699981919526453

2020-07-25 18:19:37 284

原创 分类算法——朴素贝叶斯模型

资料:贝叶斯系列教程:https://blog.csdn.net/cindy407/article/details/93523568Tips:上述资料中,在第三章《贝叶斯③——Python实现贝叶斯文本分类(伯努利&多项式模型对比)》中,关于“④ 计算类别概率和类条件概率(伯努利和多项式)”中的多项式模型的代码逻辑好像有问题,笔者思路如下:# 多项式模型def cal_prob_m(dataset,classVec): Pvec_1 = np.ones(len(dataset[0]

2020-07-24 23:23:29 168

原创 logisticsRegression——逻辑回归分类算法

引入背景Logistics回归模型的过程,建立代价函数,通过优化方法求解出最优的模型参数,之后验证求解的模型好坏。Logistics回归是一种分类算法,主要用于二分类问题(即输出只有两种,分别代表两个类别),本文也主要集中介绍二分类的Logistics回归模型。对于二分类的Logistics回归,因变量y有“是”、“否”两个取值,记作1和0。假设在自变量对于二分类的logistics回归,因变量y有“是”、“否”两个取值,记作1和0。假设在自变量x_{1} 、x_{2} 、x_{3} 、…、x_{p}

2020-07-24 23:22:41 996

原创 基于机器学习的新闻文本分类

Task1-数据探索分析数据存储由于用pandas一次性读取20w条数据显示memoryerror,内存不够,所以想到把数据存到数据库中,随用随取比较简便。把训练集20w条数据存到了mongodb数据库中。import pandas as pdimport pymongodf = pd.read_csv(r'D:\Datawhale学习资料\15期-NLP新闻文本分类\data\train_set.csv', sep='\t')texts_num = len(df.index) # 计算出新

2020-07-22 16:35:01 3957 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除