机器学习
c69
实不相瞒,我是一个天才
展开
-
pandas杂记19.12.7
list(map(lambda x, y: str(x) +'_'+ str(y), [1, 3, 5, 7, 9], [2, 4, 6, 8, 10]))['1_2', '3_4', '5_6', '7_8', '9_10']1.array转化为list :np.array(test).tolist()2.list和array的区别list是python基本数据类型,它...原创 2019-12-07 10:07:26 · 104 阅读 · 0 评论 -
pandas 杂记
1.concat函数用法:pd.concat([df1,df2],axis=0,ignore_idex = True)axis表示合并行,ignore_idex = True表示重置index2.groupby as_index用法import pandas as pddf = pd.DataFrame(data={'books':['bk1','bk1','bk1',...原创 2019-12-06 09:51:03 · 107 阅读 · 0 评论 -
杂谈时间序列对数据差分的意义
差分的目的主要是消除一些波动 使数据趋于平稳一阶差分后的确就是增量,这还比较好解释 ,而有时候一阶差分都未必能达到平稳,此时还要做二阶差分,这个就很难解释意义了。所以对于多变量的时序 一般如果不平稳 我们会选择检验他们是否同阶单整然后在同阶单整的情况下做协整分析 。只要有协整关系 就可以用原始数据来建模 。我的理解就是放宽了平稳的要求,毕竟经济数据要平稳很多时候是难以达到的。...原创 2019-10-09 20:37:02 · 7471 阅读 · 1 评论 -
LabelEncoder用法
from sklearn.preprocessing import LabelEncoderle = LabelEncoder()data1['TERMINAL_ID'] = le.fit_transform(data1['TERMINAL_ID'].values)原创 2019-09-29 19:14:17 · 5836 阅读 · 0 评论 -
浅谈数据泄露
验证集与训练集相比有些样本太相似了。会得到过于乐观甚至过拟合的结果。原创 2019-09-29 15:54:05 · 243 阅读 · 0 评论 -
我的数据挖掘之路
前言:大概是去年十一月开始接触数据挖掘的,所以入坑也将近一年时间了,一直想找个机会写一写心得体会,以此给同样想学习数据挖掘的朋友一点指引。一、安装必要工具好的,在进入正题之前,我们先来看看机器学习/数据挖掘常用的工具包,numpy,pandas,matplotlib,sklearn,xgboost,lightGBM必要时还需辅助keras,tensorflow。常用python的朋友知...原创 2019-09-24 19:16:20 · 3421 阅读 · 6 评论 -
lgb杂记
在Python下只有train函数中的num_boost_round才能控制迭代次数,params中的num_iterations及其别名都无法控制迭代次数原创 2019-09-22 10:40:10 · 174 阅读 · 0 评论 -
np.round()用法
data = pd.DataFrame()data['szy'] = [2.7,6.4]data.szy = np.round(data.szy) szy0 3.01 6.0原创 2019-09-21 21:04:18 · 41546 阅读 · 1 评论 -
天池地铁流量预测--鱼佬知乎学习笔记
模型采用滑窗滚动(天)的方式进行构建,这样可以防止因为某一天存在奇异值而导致模型训练走偏。最后将所有滚动滑窗的标签以及特征进行拼接形成我们最终的训练集。滑窗滚动需要选择分布与测试集类似的进行label的构建才能取得较好的结果,所以在此之前需要对分布差异大的数据进行删除。将测试集为周末和测试集为周内进行区别对待,保证训练集分布的稳定。节假日的信息和非节假日的分布差异非常大,所以我们也选择...原创 2019-09-21 11:13:50 · 2391 阅读 · 0 评论 -
xgboost.train()和xgboost.XGBClassifier().fit()的区别
# 1xgm = xgb.XGBClassifier()xgm.fit(X_train, y_train) y_pred = xgm.predict(X_train)# 2param = {'max_depth':2, 'eta':1, 'silent':1, 'objective':'binary:logistic' }num_round = 2bst = xgb.tra...原创 2019-09-21 19:00:35 · 13472 阅读 · 4 评论 -
评价函数汇总(待更新。。。)
MAE(Mean Absolute Error)平均绝对误差是绝对误差的平均值。可以更好地反映预测值误差的实际情况。原创 2019-09-21 08:55:23 · 399 阅读 · 0 评论