自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 【集成学习】Task 1导论

目录1 导论1.1 回归1.2 分类1.3 无监督学习1 导论有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。如:我们使用房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价。无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。如:我们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些类型的用户彼此间的行为和属性类似,形成一个客群。注意,我们本身并不知道哪个用户属于哪个客群,即没有给定因变量。1.1 回归以sk

2021-03-15 20:25:35 171

原创 Pandas学习 - 合并

一、append和assign1. append# 首先写一个实例df_append = df.loc[0:3, ['Gender','Height','Weight']].copy()df_append# 然后用append方法添加行s = pd.Series({'Gender':'F','Height':163,'Weight':50},name='whx')df_appen...

2020-04-30 20:08:27 213

原创 Pandas学习 -变形

一、透视表

2020-04-28 20:32:35 257

原创 Pandas学习 - 分组

一、groupby函数1. 分组函数的基本内容:(a)根据某一列分组grouped_single = df.groupby('School')注意,这里的设置是没有显式的返回对象的,那么需要特殊的方法来调取结果。# 找到分组变量值为S_1的记录grouped_single.get_group('S_1').head()(b)根据某几列分组grouped_mul = df.gro...

2020-04-25 08:55:40 546

原创 Pandas学习 - 索引

这部分我们要学习一下索引的操作。一、单级索引1. loc方法、iloc方法、[]操作符一般而言,最常用的索引方法就是这三类iloc表示位置索引(i表示index)loc表示标签索引[]也具有很大的便利性(a)loc方法trick one: 所有在loc中使用的切片全部包含右端点的,这一点和我们之前的右边不到不一样①单行索引# 标签索引为 1103 # 也就是说如果行标签为...

2020-04-23 10:36:43 1453

原创 牛客SQL二刷(31-36)

写在前面好几天没有看sql了,原因是上次讨论班废了一段时间,最近上半学期要结课了,很多东西都在搞。哎!春招实习上岸好难呀!继续努力吧!31、获取select * from employees对应的执行计划这道题真的是让人摸不着头脑哈!在SQLite数据库中,可以用 “EXPLAIN” 关键字或 “EXPLAIN QUERY PLAN” 短语,用于描述表的细节EXPLAIN S...

2020-04-22 17:52:32 160

原创 Pandas学习 - 基础

写在前面这个系列是跟着 Datawhale 的第二次学习,算是系统的学习一下 pandas 基础,然后会跟着教材梳理一下知识点。# 导入所需模块import pandas as pdimport numpy as np一、文件读取与写入读取# 读取文件# 可以设置分隔符如,sep = ','## csv格式df_csv = pd.read_csv('C:/Users/wen9...

2020-04-20 10:54:26 311

原创 牛客SQL二刷(25-30)

25、获取员工其当前的薪水比其manager当前薪水还高的相关信息这道题有三张表,员工表、经理表、工资表,首先是需要把几张表联结,然后获取员工和经理对应,再根据薪水条件过滤。说的轻巧,那么应该怎么去写这个语句呢。本题主要思想是创建两张表(一张记录当前所有员工的工资,另一张只记录部门经理的工资)进行比较,具体思路如下:1、先用INNER JOIN连接salaries和demp_emp,建立...

2020-04-16 16:11:34 183

原创 [概率统计]商务与经济统计知识点总结 Part 4

第七章 抽样和抽样分布这章的主要内容就是简单随机抽样和样本选择方法,还要学习如何利用统计量,比如样本均值和样本比率来估计总体均值和总体比率;此外介绍抽样分布的概念。抽样从有限总体的抽样一般来说,简单随机抽样都是有放回抽样。从无限总体的抽样对于无限总体的情形,统计学家建议抽取一个所谓的随机样本。点估计为了估计总体参数,计算相应的样本特征——样本统计量。点估计是统计推断的一种形式...

2020-04-15 14:40:26 757

原创 牛客SQL二刷(19-24)

19、查找所有员工的last_name和first_name以及对应的dept_name这道题的话主要是在几个表里面找到你想要的字段,然后联结起来。SELECT e.last_name, e.first_name, dp.dept_name FROM employees AS eLEFT JOIN dept_emp AS deON e.emp_no = de.emp_noLEFT JO...

2020-04-15 11:17:52 141

原创 [概率统计]商务与经济统计知识点总结 Part 3

碎碎念写在前面4月半啦!感觉一步一步的学习比较的踏实,希望好事儿会一件一件来的。别灰心!!还有就是晚上早点睡。第六章 连续型概率分布这一章节呢,对应第五章的离散型概率分布,并且其中包含最最重要的概率分布正态分布,很多问题都是建立在这个正态性假设上的。对于连续型变量来说,最重要的概念是概率密度函数。下面就列除几个最重要的分布。均匀概率分布处理连续型随机变量和离散型随机变量时,主要存在...

2020-04-14 14:54:18 439

原创 牛客SQL二刷(13-18)

13、从titles表获取按照title进行分组要求:每组个数大于等于2,给出title以及对应的数目t这道题的话主要是用到一个点 group by havingSELECT title, COUNT(*) AS tFROM titlesGROUP BY title HAVING COUNT(*) >= 214、查找employees表要求:所有emp_no为奇数,且last...

2020-04-14 13:31:46 121

原创 [概率统计]商务与经济统计知识点总结 Part 2

第三章 描述统计学2:数值方法这章主要罗列一些常用的描述统计量。位置的度量也就是集中趋势的度量。平均数样本平均数总体平均数加权平均数中位数就是将一组数据按大小排序,找到中间数即可。几何平均数一般用于分析财务数据的增长率。几何平均数可以用于发生在所有时间长度的连续时期的任何数量的变化率。除了年变化率之外,几何平均数也常常用于发现季度、月、周以及天的平均变化率。众数众...

2020-04-13 14:41:13 2310

原创 牛客SQL二刷(7-12)

7、查找薪水涨幅超过15次的员工号emp_no以及其对应的涨幅次数t这道题其实是有难点的,因为要求第二次薪水比第一次薪水高才能算是涨幅,而 AC 答案却没有考虑这一点,所以牛客也是奇奇怪怪的…,主要目标还是要解决一下如何展现这个涨幅。一般这种要找前一个和后一个关系的比如两个连座啊,连续几天这种,都会用到一个小 trick 就是一张表用两次。这里的联结条件需要注意:a.emp_no = b.e...

2020-04-13 10:10:53 130

原创 [概率统计]商务与经济统计知识点总结 Part 1

写在前面概率统计无疑是数据类岗位笔试和面试中很重要的一块,尤其是对我们这种本硕统计学专业的,可能问的就要更系统一些。思考了很久还是需要从基础知识慢慢复习起,理论结合具体实践,不然越看面经越焦虑哈不是嘛。不知道我的博客有没有人看,不过就当是一个小白2020的求职复习之路吧。这个系列大概会按照安德森的商务与经济统计来慢慢梳理,也不想去找什么速成的方法了,总觉得是不靠谱的。每一部分会整理基本的知识点...

2020-04-12 14:05:03 2158

原创 牛客SQL二刷(1-6)

写在前面正式开始牛客61题二刷的工作,计划是一天六道题,十天整理完所有的题解思路~最近状态起起伏伏,课程作业也到了忙碌的阶段,暑期实习也没个着落,但是学习不能停下来。信息爆炸带来的焦虑几乎人人都有吧,大量的信息带来的peer pressure真的是无法想象。前几天看了Devon学长的公众号,自己还是需要沉下心,磨好刀。慢慢来比较快嘛。告诉自己,准备最好的时间是过去,其次就是现在。1、查找...

2020-04-12 10:57:02 208

原创 [比赛]二手车交易价格预测-模型融合

一、模型的结果层面的融合回归任务中的加权融合根据各个模型的最终预测表现分配不同的权重以改变其对最终结果影响的大小。对于正确率低的模型给予更低的权重,而正确率更高的模型给予更高的权重。分类任务中的Voting基本思想是选择所有机器学习算法当中输出最多的那个类。二、其他融合BoostingBoosting是一种将各种弱分类器串联起来的集成学习方式,每一个分类器的训练都依赖于前一个分类器的...

2020-04-04 18:01:44 239

原创 [比赛]二手车交易价格预测-建模调参

1.交叉验证首先说明交叉验证的含义,在使用训练集对参数进行训练的时候,经常会发现人们通常会将一整个训练集分为三个部分(比如mnist手写训练集)。一般分为:训练集(train_set),评估集(valid_set),测试集(test_set)这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集很好理解,其实就是完全不参与训练的数据,仅仅用来观测测试效果的数据。而训练集和评估集则牵涉到下...

2020-04-01 11:25:02 357

原创 [比赛]新冠期间饿了么骑士行为预估-数据理解

写在前面饿了么的比赛的赛题数据理解。一、骑士行为数据courier_id 骑士idwave_index 波次indextracking_id 订单idcourier_wave_start_lng 波次起始时刻骑士位置courier_wave_...

2020-03-30 21:20:40 2326 44

原创 [比赛]二手车交易价格预测-特征工程

今天直接步入正题!1.数据准备# 准备数据train_y = train['price']del train['price']data = pd.concat([train, test], axis=0)data.set_index('SaleID', inplace=True)# 按类型划分数据numeric_features = ['power','kilometer','...

2020-03-28 15:47:17 176

原创 1341. 电影评分

请你编写一组 SQL 查询:查找评论电影数量最多的用户名。如果出现平局,返回字典序较小的用户名。查找在 2020 年 2 月 平均评分最高 的电影名称。如果出现平局,返回字典序较小的电影名称。题意就是查找两个结果,然后都用result显示即可,那么我们想到用UNION。第一部分 查找评论电影数量最多的用户名SELECT u.name AS resultsFROM Movie_Ra...

2020-03-28 09:06:43 575

原创 1204. 最后一个能进入电梯的人

写一条 SQL 查询语句查找最后一个能进入电梯且不超过重量限制的 person_name这条题目就是考察累加,然后找到最后一个人。SELECT person_nameFROM Queue AS q1WHERE ( SELECT SUM(weight) FROM Queue WHERE turn <= q1.turn) <= 1000ORDER...

2020-03-27 09:38:19 247

原创 1193. 每月交易 I

题目我就不写了,给出代码下次看的时候应该就知道什么题目了。SELECT DATE_FORMAT(trans_date, '%Y-%m') AS month, country, COUNT(country) AS trans_count, SUM(CASE WHEN state = 'approved' THEN 1 ELSE 0 END) AS a...

2020-03-27 09:18:16 151

原创 1174. 即时食物配送 II

如果顾客期望的配送日期和下单日期相同,则该订单称为 「即时订单」,否则称为「计划订单」。「首次订单」是顾客最早创建的订单。我们保证一个顾客只会有一个「首次订单」。写一条 SQL 查询语句获取即时订单在所有用户的首次订单中的比例。保留两位小数。这个题的点在于要首先求出首次订单的临时表,然后在这张表上找出即时订单。SELECT ROUND(100 * SUM(CASE WHEN order_...

2020-03-26 10:00:15 252

原创 1164. 指定日期的产品价格

产品数据表: ProductsColumn NameTypeproduct_idintnew_priceintchange_datedate这张表的主键是 (product_id, change_date)。这张表的每一行分别记录了某产品在某个日期更改后的新价格。这道题的话就是在于对不同类型的商品做不同的处理,如果在8月16日之前就已经做过修...

2020-03-26 09:48:33 313

原创 1132. 报告的记录 II

在被报告为垃圾广告的帖子中,被移除的帖子的每日平均占比,四舍五入到小数点后 2 位。首先给出亮眼的答案!SELECT ROUND(AVG(IFNULL(b.remove, 0) / a.spam) * 100, 2) AS average_daily_percentFROM( SELECT action_date, COUNT(DISTINCT po...

2020-03-25 09:29:29 224

原创 1126. 查询活跃业务

Events table:business_idevent_typeoccurences1reviews73reviews31ads112ads73ads61page views32page views12来源:力扣(LeetCode)链接:https://leetcode-cn.com/problem...

2020-03-25 09:09:47 151

原创 1107. 每日新用户统计

Traffic 表:Column NameTypeuser_idintactivityenumactivity_datedate该表没有主键,它可能有重复的行。activity 列是 ENUM 类型,可能取 (‘login’, ‘logout’, ‘jobs’, ‘groups’, ‘homepage’) 几个值之一。查询从今天起最多 90 天内...

2020-03-25 08:49:40 377

原创 [比赛]二手车交易价格预测-EDA

1.写在前面跟着 Datawhale 报名了天池的数据挖掘比赛,但是这几天恰逢ddl超多,所以最后急急忙忙赶着来做第一部分,感觉这种一起学习的氛围很好吧~本篇的话应该是借鉴了大佬AI蜗牛车的baseline,以及群内很多小伙伴的笔记,我挑了一个没想到就是大佬!哈哈哈!今天早上讨论班讲的也不是很好,下午作业做的也不是很顺,感觉很多时候都是充斥在自己不喜欢的东西里面,囫囵吞枣混过去了,希望慢慢的能...

2020-03-24 20:49:58 270

原创 1098. 小众书籍

你需要写一段 SQL 命令,筛选出过去一年中订单总量 少于10本 的 书籍 。注意:不考虑 上架(available from)距今 不满一个月 的书籍。并且 假设今天是 2019-06-23 。SELECT b.book_id, name FROM Books AS b LEFT JOIN Orders AS o ON b.book_id = o.book_idWHERE avai...

2020-03-23 08:59:40 258

原创 1070. 产品销售分析 III

编写一个 SQL 查询,选出每个销售产品的 第一年 的 产品 id、年份、数量 和 价格。这道题乍一看很简单啊,group by order by之后limit 1美滋滋一看解答错误,这是为啥呢,原来我自己认为首年只能有一次订单了,不能用group bySELECT product_id, year AS first_year, quantity, priceFROM SalesWHE...

2020-03-23 08:31:21 207

原创 1045. 买下所有产品的客户

从 Customer 表中查询购买了 Product 表中所有产品的客户的 id这道题关键点在于对每个顾客所购买的东西进行检索,即用count(distinct product_key)查出每个顾客购买的种类数,然后对应商品列表中有多少种类数。SELECT customer_id FROM customer GROUP BY customer_id HAVING COUNT(DIS...

2020-03-23 08:22:50 315

原创 626. 换座位

改变学生座位,原理就是左右互换,最后落单的不变,在题解区看到的非常好的思路,用IF或者CASE WHEN都可以解决,这里写出IF的解法。SELECT IF(id % 2 = 0, id-1, -- 偶数座位就往前一个 IF(id = (SELECT COUNT(DISTINCT id) FROM seat), id, -- 除此之外最后一个不变,这里...

2020-03-22 09:38:48 132

原创 612. 平面上的最近距离

近日有感太想要得到反而不是什么好的事情,这几天情绪总是不太好,感觉又回到了考研前那一个月,平白无故给自己太多的压力,被push的有点喘不过气来,快要对很多东西失去了兴趣。你要明白你为了什么而努力你要知道你完成的每一项任务都会内化成什么而不是说你加速倍速2倍速甚至跳过就能代表这些都是你的了重新出发吧不为了什么这道题自己的思路竟然很好,击败了94点多的人哈哈,还是很开心的。题目要求...

2020-03-22 09:35:44 203

原创 608. 树节点

树中每个节点属于以下三种类型之一:叶子:如果这个节点没有任何孩子节点。根:如果这个节点是整棵树的根,即没有父节点。内部节点:如果这个节点既不是叶子节点也不是根节点。按类型分类,用到case whenSELECT id, (CASE WHEN p_id IS NULL THEN 'Root' WHEN id IN (SELECT p_id FROM tree)...

2020-03-21 09:17:02 304

原创 602. 好友申请 II :谁有最多的好友

写一个查询语句,求出谁拥有最多的好友和他拥有的好友数目。就是求出两个字段中最多的那个id这里用到了union allSELECT id, COUNT(*) AS num FROM (( SELECT requester_id AS id FROM request_accepted)UNION ALL (SELECT accepter_id AS id FROM re...

2020-03-21 09:04:41 264

原创 585. 2016年的投资

写一个查询语句,将 2016 年 (TIV_2016) 所有成功投资的金额加起来,保留 2 位小数。对于一个投保人,他在 2016 年成功投资的条件是:他在 2015 年的投保额 (TIV_2015) 至少跟一个其他投保人在 2015 年的投保额相同。他所在的城市必须与其他投保人都不同(也就是说维度和经度不能跟其他任何一个投保人完全相同)。题意很清楚,满足这两个条件就可以。其实抛开其他思路...

2020-03-21 08:54:57 164

原创 578. 查询回答率最高的问题

即一个问题show之后,可能是被answer了,也可能是被skip了,所以求回答率。其实思路都是一致的,求出回答次数/出现次数即可题解一SELECT question_id as survey_logFROM(SELECT question_id, SUM(CASE WHEN action = 'answer' THEN 1 ELSE 0 END) AS num_answ...

2020-03-20 09:10:41 194

原创 570. 至少有5名直接下属的经理

Employee 表包含所有员工和他们的经理。每个员工都有一个 Id,并且还有一列是经理的 Id。IdNameDepartmentManagerId101JohnAnull102DanA101103JamesA101104AmyA101105AnneA101106RonB101请编写一个SQL查询来查...

2020-03-20 08:51:16 178

原创 550. 游戏玩法分析 IV

这道题是编写SQL,报告在首次登录的第二天再次登录的玩家的分数,四舍五入到小数点后两位。首先思路很流畅,用复表找出第二天也登陆的player_id两个统计量相除即可最后四舍五入但是我漏了最重要的一点首次,最后还要加一个过滤条件SELECT ROUND(COUNT(DISTINCT a1.player_id) / (SELECT COUNT(DISTINCT player_id) F...

2020-03-20 08:35:16 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除