努力成为数据大牛的小白-CSDN博客

原创数据挖掘——工业蒸汽量预测

一、赛题描述经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别），根据锅炉的工况，预测产生的蒸汽量。赛题链接：工业蒸汽量预测-天池大赛-阿里云天池二、数据说明数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。选手利用训练数据训练出模型，预测测试数据的目标变量，排名结果依据预测结果的MSE（mean square error）。三、导入相关库import pandas as pdimpor

2021-03-12 15:13:27 2723

转载假设检验——KS检验、t检验、卡方检验

天池新人赛——工业量蒸汽预测一、赛题介绍经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别），根据锅炉的工况，预测产生的蒸汽量。赛题链接：https://tianchi.aliyun.com/competition/entrance/231693/introduction二、数据说明数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。选手利用训练数据训练出模型，预测测试数据的目标变量，排名结果

2021-03-03 15:58:24 17051

原创 LSTM+Attention+CRF的原理讲解

CRF简单来说一组参数theta可以唯一确定一组模型，我们需要找到一组最优参数使得训练数据中 x->y 的概率最大化。将上述最大化的目标函数P取负，转化为最小化问题，即可用反向传播算法进行优化，找到近似最优参数theta。在CRF模型中有一个简单的假设，即当前输出的标签只和上一级输出的标签以及当前的输入有关，所以Score(x, y)应该由两部分组成，一个是转移特征概率，一个是状态特征概率。什么意思呢，转移特征概率是指前一个输出标签为 B 的前提下我当前输出标签为某个值比如 I 的概率大小。而状

2020-10-12 22:58:00 4770

原创 sklearn之SVM模型详解

sklearn中SVM概述及参数详解资料一：https://www.cnblogs.com/d0main/p/10459757.html资料二：https://blog.csdn.net/icanx/article/details/96270752?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribut

2020-08-15 16:20:40 735

原创决策树之ID3、C4.5、CART算法原理详解

学习资料：https://blog.csdn.net/choven_meng/article/details/82878018?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159566999819195264530507%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=15956699981919526453

2020-07-25 18:19:37 313

原创分类算法——朴素贝叶斯模型

资料：贝叶斯系列教程：https://blog.csdn.net/cindy407/article/details/93523568Tips:上述资料中，在第三章《贝叶斯③——Python实现贝叶斯文本分类（伯努利&多项式模型对比）》中，关于“④ 计算类别概率和类条件概率（伯努利和多项式）”中的多项式模型的代码逻辑好像有问题，笔者思路如下：# 多项式模型def cal_prob_m(dataset,classVec): Pvec_1 = np.ones(len(dataset[0]

2020-07-24 23:23:29 199

原创 logisticsRegression——逻辑回归分类算法

引入背景Logistics回归模型的过程，建立代价函数，通过优化方法求解出最优的模型参数，之后验证求解的模型好坏。Logistics回归是一种分类算法，主要用于二分类问题（即输出只有两种，分别代表两个类别），本文也主要集中介绍二分类的Logistics回归模型。对于二分类的Logistics回归，因变量y有“是”、“否”两个取值，记作1和0。假设在自变量对于二分类的logistics回归，因变量y有“是”、“否”两个取值，记作1和0。假设在自变量x_{1} 、x_{2} 、x_{3} 、…、x_{p}

2020-07-24 23:22:41 1070

原创基于机器学习的新闻文本分类

Task1-数据探索分析数据存储由于用pandas一次性读取20w条数据显示memoryerror，内存不够，所以想到把数据存到数据库中，随用随取比较简便。把训练集20w条数据存到了mongodb数据库中。import pandas as pdimport pymongodf = pd.read_csv(r'D:\Datawhale学习资料\15期-NLP新闻文本分类\data\train_set.csv', sep='\t')texts_num = len(df.index) # 计算出新

2020-07-22 16:35:01 4259 1