大数据
Yang-Zhou
There's a lot you can do
展开
-
knn算法知识
knn算法是属于监督学习的一种算法,简单来说就是根据预测样本和训练样本的距离来进行分类或者回归。1.k值的选择:若k较小,模型的复杂度较高,容易发生过拟合若k较大,与输入实例较远的训练样本也会起预测作用,是预测误差变大。通常采用交叉验证法来选取最优的k值。2.距离的度量主要有欧式距离,皮尔逊相关系数(Pearson Correlation),余弦相似度(Cosine Similarit...原创 2019-01-11 22:08:28 · 2820 阅读 · 0 评论 -
先验概率与后验概率、贝叶斯区别与联系
先验概率与后验概率、贝叶斯区别与联系 先验概率:根据以往经验分析得到的概率,通俗就是根据统计和规律得出得概率。后验概率:就是根据结果推原因,比如知道一个产品是次品求它来自A车间的概率,通过贝叶斯公式可以得到。贝叶斯公式:例子:...原创 2019-01-08 11:20:23 · 7328 阅读 · 0 评论 -
pd.merge
参考博文:https://blog.csdn.net/brucewong0516/article/details/82707492转载 2019-01-18 18:49:24 · 635 阅读 · 0 评论 -
ndarray运算记录
关于ndarray对象的很多计算方法都有一个axis参数,它有如下作用:当axis=None(默认)时,数组被当成一个一维数组,对数组的计算操作是对整个数组进行的,比如sum方法,就是求数组中所有元素的和;当axis被指定为一个int整数时,对数组的计算操作是以提供的axis轴进行的。比如data.sum()就是所有元素的和,sum(axis=0)就是列加,axis=1就是行加计算...原创 2019-01-15 17:07:12 · 224 阅读 · 0 评论 -
numpy 操作记录
记录平时使用的numpy的一些操作参考文章:numpy生成ndarraynp.arange(start,end,step) ------前闭后开,与range类似,但是支持小数。np.random随机选择元素:np.random.choice(t,size,replace=Ture) ----t是ndarray 类型的数据,size大小,replace有无放回,跟random的...原创 2019-04-11 09:38:51 · 125 阅读 · 0 评论 -
xgb lgb 自定义评价函数差别
关于xgb lgb自定义评价函数,其实是区别的,但步骤都是一样的XGB:#自定义评价函数---适用于XGBClassifier#preds是预测结果概率-但是需要转换成label#dtrain是xgb的矩阵,使用get_label() 可获取到真实的labeldef get_f1 (preds,dtrain): label=dtrain.get_label() pred...原创 2019-04-23 20:42:35 · 5379 阅读 · 4 评论 -
xgb参数自用
原创 2019-04-24 19:34:59 · 1267 阅读 · 0 评论 -
python 时间操作--数据分析
记录python 对时间的操作整理,数据分析使用#pd.to_datatime()可以将str类型的直接转换成datatime 类型的数据,便于数据分析,format根据str的格式自己调整就好了action['action_time']=pd.to_datetime(action['action_time'],format='%Y-%m-%d %H:%M:%S')#datetime是...原创 2019-05-15 16:25:18 · 196 阅读 · 0 评论