一个小目标everyday-CSDN博客

原创季节性时间序列分析-SARIMAX模型的python实现

0 SARIMAX模型时间序列分析步骤1.用pandas处理时序数据2. 检验时序数据的平稳性3. 将时序数据平稳化4. 确定order 的 p.d.q值5. 确定season_order的四个值6.应用SARIMAX模型对时序数据进行预测其实SARIMAX比ARIMA模型就多了个season_order参数的确定，但也是这里最费时间的一个步骤1将数据转化成为...

2019-08-28 12:51:35 25608 13

原创时间序列分析-ARIMA的python实现

0 时间序列分析步骤1.用pandas处理时序数据2. 检验时序数据的平稳性3. 将时序数据平稳化4. 确定p.d.q值5. 应用ARIMA模型对时序数据进行预测其中ARIMA模型是Autoregressive Integrated Moving Average model，差分整合移动平均自回归模型，只适用于单一变量的数据序列模型的预测。ARIMA（p，d，q）中...

2019-08-27 23:00:15 2857

原创 LSTM理解与应用

首先感谢https://www.jianshu.com/p/9dc9f41f0b29作者的文章，让我对LSTM有了初步的认识。还有我要推荐李宏毅老师讲的LSTM课程，讲的实在是太容易理解了，https://www.youtube.com/watch?v=xCGidAeyS4M理解RNN想要理解LSTM的前提是理解RNN，RNN（Recurrent Neural Network）是一类...

2019-07-01 22:14:45 4166

最近参加了一次kaggle竞赛Jigsaw Unintended Bias in Toxicity Classification，经过一个多月的努力探索，从5月20日左右到6月26日提交最终的两个kernel，在public dataset上最终排名为4%(115/3167)，说实话以前也并没有怎么接触过NLP方面的东西，对深度学习的理解也不是特别深刻。BERT是目前非常火的NLP模型，采用两段...

2019-06-28 17:52:19 5448 1

原创 EDA探索性数据分析

Data explorationCheck the dataimport numpy as npimport pandas as pdimport warningswarnings.filterwarnings('ignore')train_df = pd.read_csv('train.csv') train_df.head() id target c...

2019-04-08 11:08:36 1153

原创 LGBM函数及参数详解

LGBM Python APIDatasetclass lightgbm.Dataset(data, label=None, max_bin=None, reference=None, weight=None, group=None, init_score=None, silent=False, feature_name='auto', categorical_feature='auto'...

2019-04-02 21:05:52 22761 1

原创机器学习面试试题精选

1. L1和L2范式的区别使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归），即为L1正则化项,指权值向量中各个元素的绝对值之和。即为L2正则化项指权值向量中各个元素的平方和然后再求平方根。L1范式是对应参数向量绝对值之和L1范式具有稀疏性L1范式可以用来作为特征选择，并且可解释性较强L2范式是对应参数向量的平方和，再求平方根L2...

2019-03-31 18:07:42 307

转载 LightGBM原理

Lightgbm解决方法 Lightgbm使用了如下两种解决办法：一是GOSS（Gradient-based One-Side Sampling, 基于梯度的单边采样），不是使用所用的样本点来计算梯度，而是对样本进行采样来计算梯度；二是EFB（Exclusive Feature Bundling，互斥特征捆绑），这里不是使用所有的特征来进行扫描获得最佳的切分点，而是将某些特征进...

2019-03-29 21:07:11 1200

转载 xgboost原理

之前一篇文章提到了GBDT，其实就是做一个铺垫，引出今天要说的两个，xgboost和lightboost。xgboost是GBDT的改进和重要实现，主要在于：提出稀疏感知(sparsity-aware)算法。加权分位数快速近似数学习算法。缓存访问模式，数据压缩和分片上的实现上的改进。加入了Shrinkage和列采样，一定程度上防止过拟合。Tree BoostingTree ...

2019-03-29 13:35:33 356

转载 GBDT原理介绍

GBDT主要由三个概念组成：Regression Decistion Tree、Gradient Boosting与ShrinkageGBDT之GB——回归树决策树不仅可以用于分类，还可用于回归，它的作用在于数值预测，例如明天的温度、用户的年龄等等，而且对基于回归树所得到的数值进行加减是有意义的。GBDT在运行时就使用到了回归树的这个性质，它将累加所有树的结果作为最终结果。所...

2019-03-28 20:57:25 946

原创不均衡样本处理

不均衡样本采样方法有两种：过采样和下采样下采样先获取数据为异常的个数，再在正常的数据中随机选择异常个数的数据，这样异常数据的个数就和正常数据的个数相同了，最后将选出来的正常样本和异常样本合起来过采样过采样就是通过样本生成策略使得，样本少的一方进行扩展，同样使样本变得平衡采样经验法则1. 考虑对大类下的样本（超过1万、十万甚至更多）进行欠采样，即删除部分样本；2. 考虑对...

2019-03-28 18:10:48 433

原创竞赛探索性数据分析

最近在做一个kaggle比赛，是利用一家银行的用户样本的各项数据来对用户是否会贷款进行预测。探索性数据分析(EDA)数据总览train_df = pd.read_csv('train.csv') test_df = pd.read_csv('test.csv') train_df.head() ID_code target var_0 var...

2019-03-28 17:00:31 705

原创简历怎么写才不会为自己挖坑？面试究竟应该如何准备？

简历应该是怎么样的简历虽然只是求职的第一步，但如果连第一步都跨不过去，那么更别谈什么面试的技巧。面试不同的岗位都影响简历的撰写，像我这样面试技术岗的，简历还是需要简洁一点，可以走性冷淡风，不要太多的废话。面试技术岗简历上所有的文字都是应该体现你在这个岗位之间的优势，其他所有东西都不能提高你面试的成功率，哪怕你获得的是全国劳动模范。如果是找实习岗位的话，简历应该以项...

2019-03-07 22:18:31 479

原创安装tensorflow出的一点小问题

第一次尝试：直接在命令行，pip install --upgrade --ignore-installed tensorflow那叫一个慢，下载个48M的文件一个小时都不够，结果最后还是失败了。第二次尝试：https://www.lfd.uci.edu/~gohlke/pythonlibs/，下了对应版本的tensorflow，将文件放入C:\Python36\Scripts文件夹中，然后...

2018-08-22 09:48:30 285

原创 Python搭建神经网络

前向传播的线性函数线性函数。神经网络的层数，3层的神经网络其隐藏层为两层。以三层神经网络为例：h1=x.dot(w1)+b1,h2=h1.dot(w2)+b2，scores=h2.dot(w3)+b3批量归一化批量归一化这一步骤在线性函数和激活函数之间，将h1=x.dot(w1)+b1结果拿去激活函数之前进行批量归一化。相当于每一步前向传播都运用了数据预处理的操作...

2018-08-15 22:09:19 1338

原创 Python搭建SVM

目录1.线性分类器2.损失函数 Loss function多类支持向量机损失(Multiclass Support Vector Machine Loss)损失函数(Softmax分类器)： 3.正则化（Regularization）4.总结如下： 5.部分代码及其解释6.全部代码从SVM开始才算真正步入机器学习了，之前的KNN只能算是公式应用，毕竟没...

2018-07-23 22:18:26 7828

原创空气中PM2.5问题的研究

最近在搞数模的东西，这算是一个对别人论文的方案的实现，自己再做一些拓展。先上题目：PM2.5的相关因素分析；有一种研究认为，AQI监测指标中的二氧化硫（SO2），二氧化氮（NO2），一氧化碳（CO）是在一定环境条件下形成PM2.5前的主要气态物体。请依据附件1或附件2中的数据或自行采集数据，利用或建立适当的数学模型，对AQI中6个基本监测指标的相关与独立性进行定量分析，尤其是对其中PM...

2018-07-19 23:31:37 3541 5

原创李飞飞深度学习与计算机视觉——KNN(KNearestNeighbor)

之前为了熟悉机器学习的东西去搞kaggle的东西，然后就从Titanic入门咯，结果发现并没有对机器学习的东西有深入的理解，做数据挖掘的时候直接调用sklearn里面的框架，根本不用去想机器学习的公式的运用和基础的实现，想用SVM就直接from sklearn import svm，然后clf = svm.SVC(kernel='linear', C=1)往这里面填几个参数，知道基本原理和...

2018-07-13 16:21:39 2468

原创 Titanic学习之Cabin中的仓位特征

仓位长这样，C123，一共有ABCDEFGT,8种仓位。之前我在进行数据预处理的时候，直接把仓位分成有仓位和无仓位，其实这样是有点问题的，有仓位的也有200多位，占了1/4还多，那就来看看各仓位以及无仓位之间获救的概率。data_train.Cabin[data_train.Cabin.isnull()]='X'#将无仓位的数据直接标记位Xknown_cabin = data_train[data...

2018-07-05 10:50:15 828

原创 Titanic学习之Name中的title提取

data_train['Title']=data_train['Name'].apply(lambda x: x.split(',')[1].split('.')[0].strip())这样就在data_train中新建了一个特征Titledata_train中的Title有Title_Capt 891 non-null uint8Title_Col ...

2018-07-05 10:02:15 519

原创 Titannic学习之交叉验证

学习预测函数的参数并在相同的数据上测试，可能会在这组测试数据上有一个完美的分数，但是它不能预测未知的数据，或者说效果可能不理想，这种情况叫过拟合，交叉验证就是用来解决这种过拟合的情况的。train_test_split利用train_test_split快速地随机分割训练和测试集import numpy as npfrom sklearn.model_selection import t...

2018-07-02 16:30:10 515

原创 Matplotlib基础

Plotting在Matplotlib中最重要的功能是绘图，可以绘制二维数据。import numpy as npimport matplotlib.pyplot as pltx = np.arange(0, 3 * np.pi, 0.1)y = np.sin(x) #y=x的正弦曲线plt.plot(x, y)plt.show() # 绘图显示给图表添加标题、图例和轴标签import num...

2018-07-02 10:38:18 186

原创 SciPy基础

SCIPY提供了一些与图像一起工作的基本功能。例如，它具有读取图像到numpy阵列、将numpy阵列写入图像的功能，以及调整图像大小的功能。下面是一个展示这些功能的简单例子：图像基础操作from scipy.misc import imread, imsave, imresizeimg = imread('assets/cat.jpg')# 读取图像print(img.dtype, img...

2018-07-02 09:57:00 247

原创 numpy基础

numpy二维数组切片row_r1 = a[1, :] # Rank 1 view of the second row of a 这里是运用行列的方法，输出的某行的数据row_r2 = a[1:2, :] # Rank 2 view of the second row of a 这里是运用索引的方法，输出的元素[[]]print(row_r1, row_r1.shape) # ...

2018-06-30 14:01:05 256

weixin_38267719的博客