- 博客(8)
- 收藏
- 关注
原创 数据挖掘——工业蒸汽量预测
一、赛题描述经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。赛题链接:工业蒸汽量预测-天池大赛-阿里云天池二、数据说明数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为目标变量。选手利用训练数据训练出模型,预测测试数据的目标变量,排名结果依据预测结果的MSE(mean square error)。三、导入相关库import pandas as pdimpor
2021-03-12 15:13:27 2634
转载 假设检验——KS检验、t检验、卡方检验
天池新人赛——工业量蒸汽预测一、赛题介绍经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。赛题链接:https://tianchi.aliyun.com/competition/entrance/231693/introduction二、数据说明数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为目标变量。选手利用训练数据训练出模型,预测测试数据的目标变量,排名结果
2021-03-03 15:58:24 16225
原创 LSTM+Attention+CRF的原理讲解
CRF简单来说一组参数theta可以唯一确定一组模型,我们需要找到一组最优参数使得训练数据中 x->y 的概率最大化。将上述最大化的目标函数P取负,转化为最小化问题,即可用反向传播算法进行优化,找到近似最优参数theta。在CRF模型中有一个简单的假设,即当前输出的标签只和上一级输出的标签以及当前的输入有关,所以Score(x, y)应该由两部分组成,一个是转移特征概率,一个是状态特征概率。什么意思呢,转移特征概率是指前一个输出标签为 B 的前提下我当前输出标签为某个值比如 I 的概率大小。而状
2020-10-12 22:58:00 4571
原创 sklearn之SVM模型详解
sklearn中SVM概述及参数详解资料一:https://www.cnblogs.com/d0main/p/10459757.html资料二:https://blog.csdn.net/icanx/article/details/96270752?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribut
2020-08-15 16:20:40 700
原创 决策树之ID3、C4.5、CART算法原理详解
学习资料:https://blog.csdn.net/choven_meng/article/details/82878018?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159566999819195264530507%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=15956699981919526453
2020-07-25 18:19:37 284
原创 分类算法——朴素贝叶斯模型
资料:贝叶斯系列教程:https://blog.csdn.net/cindy407/article/details/93523568Tips:上述资料中,在第三章《贝叶斯③——Python实现贝叶斯文本分类(伯努利&多项式模型对比)》中,关于“④ 计算类别概率和类条件概率(伯努利和多项式)”中的多项式模型的代码逻辑好像有问题,笔者思路如下:# 多项式模型def cal_prob_m(dataset,classVec): Pvec_1 = np.ones(len(dataset[0]
2020-07-24 23:23:29 168
原创 logisticsRegression——逻辑回归分类算法
引入背景Logistics回归模型的过程,建立代价函数,通过优化方法求解出最优的模型参数,之后验证求解的模型好坏。Logistics回归是一种分类算法,主要用于二分类问题(即输出只有两种,分别代表两个类别),本文也主要集中介绍二分类的Logistics回归模型。对于二分类的Logistics回归,因变量y有“是”、“否”两个取值,记作1和0。假设在自变量对于二分类的logistics回归,因变量y有“是”、“否”两个取值,记作1和0。假设在自变量x_{1} 、x_{2} 、x_{3} 、…、x_{p}
2020-07-24 23:22:41 996
原创 基于机器学习的新闻文本分类
Task1-数据探索分析数据存储由于用pandas一次性读取20w条数据显示memoryerror,内存不够,所以想到把数据存到数据库中,随用随取比较简便。把训练集20w条数据存到了mongodb数据库中。import pandas as pdimport pymongodf = pd.read_csv(r'D:\Datawhale学习资料\15期-NLP新闻文本分类\data\train_set.csv', sep='\t')texts_num = len(df.index) # 计算出新
2020-07-22 16:35:01 3957 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人