自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 2021-09-12

有一张表有3个字段 UID(用户ID), Date(日期), Site(网站),有最近1年的多个网站的访问记录。求:按每个网站,每天输出以下指标新增用户数量当日用户数最近3天去重用户数说明:网站新增用户,即此用户第一次访问该网站。建表:create table log(site varchar(10),uid varchar(10),log_date date);insert into log values('A' , '01' , '2021-06-01');insert into

2021-09-12 16:50:48 2016

原创 SQL时间转换和运算函数

时间转换函数-- select DATE_FORMAT('2021-01-01','%Y')-- 2021-- select DATE_FORMAT('2021-01-01 08:30:50','%Y')-- 2021-- select DATE_FORMAT('2021-01-01','%Y-%m')-- 2021-01-- select DATE_FORMAT('2021-01-01 08:30:50','%Y-%m-%d')-- 2021-01-01时间运算函数1.在某.

2021-09-08 23:38:09 449

原创 窗口函数总结

1.<窗口函数> over(partition by <用于分组的列名>) order by <用于排序的列名>)2.因为窗口函数是对where或者group by子句处理后的结果进行操作,所以窗口函数原则上只能写在select子句中。3.group by分组汇总后改变了表的行数,一行只有一个类别。而partiition by和rank函数不会减少原表中的行数。4.rank,dense_rank,row_numberrank:如果有并列名次的行,会占用下一名次的

2021-09-08 23:11:07 247

原创 TOPN 窗口函数使用,表连接中连接字段不等关系

有两个表Area表中存放着区域划分范围,区域划分使用地域编码起止区间方式,例如,华东地区的起止编码是10001~10003,在10001、10002、10003区域的客户都隶属于华东地区。Sales存放着每个区域中客户的购买信息。需求:统计出每个区域中购买量最大的客户。创建两个表CREATE TABLE Areas(area_name char(25) NOT NULL, start_co`在这里插入代码片`de int NOT NULL, end_code int NOT NULL, C

2021-09-08 22:49:03 101

原创 GBDT、XGBoost、LightGBM 的使用及参数调优

GBDT、XGBoost、LightGBM 的使用及参数调优

2020-11-05 20:14:51 183

原创 matplotlib使用GridSpec调整子图位置大小 (非对称的子图)

参考用matplotlib.pyplot的subplots命令可以很方便的画对称的子图,但是如果要画非对称的子图(如下)就需要用GridSpec命令来控制子图的位置和大小:import matplotlib.pyplot as pltfrom matplotlib.gridspec import GridSpecfig = plt.figure(1)gs = GridSpec(3, 3)ax1 = plt.subplot(gs[0, :])ax2 = plt.subplot(gs[1,

2020-11-05 17:28:27 1023

原创 sklearn中的cross_val_score()函数

sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)参数estimator:需要使用交叉验证的算法X:样本数据y:样本标签soring:交叉验证最重要的就是他的验证方式,选择不同的评价方法,会产生不同的评价结果。具体可用哪些评价指标,官方已给出详细解释,链接

2020-11-05 16:40:56 1117

原创 tree.DecisionTreeClassifier()函数

tree.DecisionTreeClassifier()函数class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None

2020-11-04 15:02:59 3811

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除