自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 iforest

features_list_tb = []times = 41# 环比特征for d in range(1, times):    feature_name = 't' + str(d)    data_tb = data[['ts', 'value']].rename(columns={'value': feature_name})    data_tb['ts'] = data_t...

2019-02-02 09:45:46 317

转载 时间序列表示和提取

https://zhuanlan.zhihu.com/p/39105270

2019-01-02 11:22:49 1091

转载 教你成为全栈工程师(Full Stack Developer) 三十四-基于python的高效中文文本切词

http://www.shareditor.com/blogshow/?blogId=47

2018-11-06 16:35:48 295

转载 阮一峰大神

http://www.ruanyifeng.com/blog/

2018-11-05 12:04:22 639

转载 自己动手做聊天机器人

http://www.shareditor.com/blogshow?blogId=90

2018-11-02 21:24:19 761

转载 多分类,多标签

https://www.zhihu.com/question/35486862/answer/462683110

2018-11-02 21:14:03 105

转载 TF-IDF

http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html

2018-11-02 20:28:23 78

转载 python源码

http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction

2018-11-02 18:33:56 251

原创 online learning -FTRL

https://github.com/fmfn/FTRLp/blob/master/FTRLp.py

2018-11-01 17:28:01 395

转载 XGBOOST

http://mlnote.com/2016/10/05/a-guide-to-xgboost-A-Scalable-Tree-Boosting-System/

2018-08-28 10:18:58 107

转载 GBDT源码

https://github.com/RRdmlearning/Machine-Learning-From-Scratch/tree/master/gradient_boosting_decision_treehttp://www.dmlearning.cn/single/a5bf33e7b2c44e499a1cb7b2d5f8fbfa.html https://github.com/...

2018-08-18 17:42:35 324

转载 排序

https://www.cnblogs.com/zyb428/p/5673738.html

2018-08-03 11:20:28 141

原创 xgboost

https://blog.csdn.net/github_38414650/article/details/76061893目标要求预测误差尽量小,叶子节点尽量少,节点数值尽量不极端(这个怎么看,如果某个样本label数值为4,那么第一个回归树预测3,第二个预测为1;另外一组回归树,一个预测2,一个预测2,那么倾向后一种,为什么呢?前一种情况,第一棵树学的太多,太接近4,也就意味着有较大的过拟...

2018-07-31 15:37:27 352

原创 集成学习

团队合作多个分类器集合,每个分类器抓住不同特征,就像打游戏一样,需要射手,法师,坦克。复杂模型往往容易高方差,低偏差bagging 适应于复杂模型,过拟合,多个分类器好的进行组合随机森林:      行采样,列采样,有放回的取样      没有办法更好的去fit函数     Boosting:  一个原则:可以使分类错误率高过50%的分类器达到错误率0%的情...

2018-07-31 14:31:29 197

原创 DBSCAN

https://blog.csdn.net/zdy0_2004/article/details/72953531https://blog.csdn.net/lishuhuakai/article/details/53980517import numpy as npimport pandas as pdfrom sklearn.cluster import DBSCANimport ...

2018-07-27 18:24:09 629

转载 数据读取处理

https://blog.csdn.net/liuyq859/article/details/78387600

2018-07-26 11:52:24 135

原创 聚类算法

一、简单的聚类算法       KNN       K-means二、层次聚类       将每个样本视为一类,进行合并,最终聚为k类。       将所有样本视为一类,进行分裂,最后分裂为k类。三、密度聚类       1、优点:克服基于距离聚类发现的类圆问题,发现任意形状聚类,对噪声不敏感        2、缺点:计算复杂度大      DBSCAN J...

2018-07-25 17:54:05 126

原创 完成订单分析

SELECT    brands_id,    total_ord,    total_user,    total_amt,    total_amt * 1.0 / total_ord as avgfrom    (        SELECT            brands_id,            chan_cd,            count(DISTI...

2018-07-25 16:49:54 647

原创 SQL读取数据2

统计粉丝情况SELECT    brands_id,    count(DISTINCT pin) as 粉丝数from    (        SELECT            a.brands_id,            b.created_time,            b.pin        from            (               ...

2018-07-25 16:49:25 337

原创 SQL读取数据1

成交量,成交人数,成交价格SELECT    brands_id as 品牌代号,    brand_nm as 品牌名称,    total_ord_amt as 完成订单金额,    total_sale_order as 完成订单数量,    total_usr as 成交用户数,    total_ord_amt * 1.0 / total_sale_order as 客单...

2018-07-25 16:48:34 297

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除