阿里云天池SQL训练营 TASK06 学习笔记

本笔记为阿里云天池龙珠计划SQL训练营的学习内容,链接为:https://tianchi.aliyun.com/specials/promotion/aicampsql

练习题1

SELECT MarketData.*,

 OperatingData.INDIC_NAME_EN,

 OperatingData.VALUE,

 IncomeStatement.N_INCOME,

 IncomeStatement.T_COGS,

 IncomeStatement.T_REVENUE

 FROM (

 SELECT TICKER_SYMBOL,

 END_DATE,

 CLOSE_PRICE

 FROM `market data`

 WHERE TICKER_SYMBOL IN ('600383','600048') ) MarketData

 LEFT JOIN -- operating data

 (SELECT TICKER_SYMBOL,

 INDIC_NAME_EN,

END_DATE,

 VALUE

 FROM `company operating`

 WHERE TICKER_SYMBOL IN ('600383','600048') ) OperatingData

 ON MarketData.TICKER_SYMBOL = OperatingData.TICKER_SYMBOL

 AND MarketData.END_DATE = OperatingData.END_DATE

 LEFT JOIN -- income statement

 (SELECT DISTINCT TICKER_SYMBOL,

 END_DATE,

 T_REVENUE,

 T_COGS,

 N_INCOME

 FROM `income statement`

 WHERE TICKER_SYMBOL IN ('600383','600048') ) IncomeStatement

ON MarketData.TICKER_SYMBOL = IncomeStatement.TICKER_SYMBOL

 AND MarketData.END_DATE = IncomeStatement.END_DATE

ORDER BY MarketData.TICKER_SYMBOL, MarketData.END_DATE

select * , dense_rank() over (partition by citric acid) as rank_

from `winequality-red`

    where pH = 3.03

    order by citric acid asc;

练习题3

select max(p.discount_sum),p.merchant_id    -- 发放金额最多的商家

from (select merchant_id, sum(substring_index(discount_rate,':',1)) as discount_sum

from ccf_offline_stage1_test_revised

        where date_received between '2016-07-01' and '2016-07-30'

        group by merchant_id) p

练习题4

SELECT PERIOD_DATE,

 MAX(DATA_VALUE) FianlValue

 FROM `macro industry`

WHERE INDIC_ID = '2020101522'

 AND YEAR(PERIOD_DATE) = 2015

GROUP BY PERIOD_DATE

ORDER BY FianlValue DESC

LIMIT 1;

-- 并且相⽐去年同期增⻓/减少了多少个百分⽐?

SELECT BaseData.*,

 (BaseData.FianlValue - YoY.FianlValue) / YoY.FianlValue YoY

 FROM (SELECT PERIOD_DATE,

 MAX(DATA_VALUE) FianlValue

 FROM `macro industry`

 WHERE INDIC_ID = '2020101522'

 AND YEAR(PERIOD_DATE) = 2015

 GROUP BY PERIOD_DATE

 ORDER BY FianlValue DESC

 LIMIT 1) BaseData

 LEFT JOIN -- YOY

 (SELECT PERIOD_DATE,

 MAX(DATA_VALUE) FianlValue

 FROM `macro industry`

 WHERE INDIC_ID = '2020101522'

 AND YEAR(PERIOD_DATE) = 2014

 GROUP BY PERIOD_DATE ) YoY

 ON YEAR(BaseData.PERIOD_DATE) = YEAR(YoY.PERIOD_DATE) + 1

 AND MONTH(BaseData.PERIOD_DATE) = MONTH(YoY.PERIOD_DATE);

练习题5

SELECT SUM(CASE WHEN Date='0000-00-00' AND Coupon_id IS NOT NULL

 THEN 1

 ELSE 0

 END) /

 SUM(CASE WHEN Coupon_id IS NOT NULL

 THEN 1

 ELSE 0

 END) AS discard_rate

FROM ccf_online_stage1_train

WHERE Date_received BETWEEN '2016-06-01' AND '2016-06-30';

-- 2016年6⽉期间,优惠券弃⽤率最⾼的商家?

SELECT Merchant_id,

 SUM(CASE WHEN Date = '0000-00-00' AND Coupon_id IS NOT NULL

 THEN 1

 ELSE 0

 END) /

 SUM(CASE WHEN Coupon_id IS NOT NULL

 THEN 1

 ELSE 0

 END) AS discard_rate

 FROM ccf_online_stage1_train

WHERE Date_received BETWEEN '2016-06-01' AND '2016-06-30'

GROUP BY Merchant_id

ORDER BY discard_rate DESC

LIMIT 1;

练习题6

SELECT pH,

 `residual sugar`,

 RANK() OVER (ORDER BY `residual sugar`) AS rankn

 FROM `winequality-white`

WHERE pH= 3.63;

练习题7

SELECT TYPE_NAME_CN,

 SUM(MARKET_VALUE)

 FROM `market data`

WHERE YEAR(END_DATE) = '2018-12-31'

GROUP BY TYPE_NAME_CN

ORDER BY SUM(MARKET_VALUE) DESC

LIMIT 3

SELECT BaseData.TYPE_NAME_CN,

 BaseData.TICKER_SYMBOL

 FROM (SELECT TYPE_NAME_CN,

 TICKER_SYMBOL,

 MARKET_VALUE,

 ROW_NUMBER() OVER(PARTITION BY TYPE_NAME_CN ORDER BY MARKET_VALUE)

CompanyRanking

 FROM `market data` ) BaseData

 LEFT JOIN

 ( SELECT TYPE_NAME_CN,

 SUM(MARKET_VALUE)

 FROM `market data`

 WHERE YEAR(END_DATE) = '2018-12-31'

 GROUP BY TYPE_NAME_CN

 ORDER BY SUM(MARKET_VALUE) DESC

 LIMIT 3 ) top3Type

 ON BaseData.TYPE_NAME_CN = top3Type.TYPE_NAME_CN

WHERE CompanyRanking <= 3

 AND top3Type.TYPE_NAME_CN IS NOT NULL

练习题8

SELECT User_id,

 SUM(couponCount) couponCount

 FROM (SELECT User_id,

 count(*) couponCount

 FROM `ccf_online_stage1_train`

 WHERE (Date != 'null' AND Coupon_id != 'null')

 AND (LEFT(DATE,4)=2016 )

 GROUP BY User_id

 UNION ALL

 SELECT User_id,

 COUNT(*) couponCount

 FROM `ccf_offline_stage1_train`

 WHERE (Date != 'null' AND Coupon_id != 'null')

 AND (LEFT(DATE,4)=2016 )

 GROUP BY User_id ) BaseData

GROUP BY User_id

ORDER BY SUM(couponCount) DESC

LIMIT 1

练习题9

SELECT *

 FROM (SELECT TICKER_SYMBOL,

 YEAR(END_DATE) Year,

 QUARTER(END_DATE) QUARTER,

 SUM(VALUE) Amount

 FROM `company operating`

 WHERE INDIC_NAME_EN = 'Baiyun Airport:Passenger throughput'

 GROUP BY TICKER_SYMBOL,YEAR(END_DATE),QUARTER(END_DATE)

 ORDER BY SUM(VALUE) DESC

 LIMIT 1 ) BaseData

 LEFT JOIN -- income statement

 (SELECT TICKER_SYMBOL,

 YEAR(END_DATE) Year,

 QUARTER(END_DATE) QUARTER,

 SUM(N_INCOME) Amount

 FROM `income statement`

 GROUP BY TICKER_SYMBOL,YEAR(END_DATE),QUARTER(END_DATE) ) Income

 ON BaseData.TICKER_SYMBOL = Income.TICKER_SYMBOL

AND BaseData.Year = Income.Year

 AND BaseData.QUARTER = Income.QUARTER

练习题10

SELECT Merchant_id,

 SUM(discount_amount) discount_amount

 FROM (SELECT Merchant_id,

 SUM(SUBSTRING_INDEX(`Discount_rate`,':',-1)) AS discount_amount

 FROM `ccf_online_stage1_train`

 WHERE (Date != 'null' AND Coupon_id != 'null')

 AND (LEFT(DATE,4)=2016 )

 AND MID(DATE,5,2) = '06'

 GROUP BY Merchant_id

 UNION ALL

 SELECT Merchant_id,

 SUM(SUBSTRING_INDEX(`Discount_rate`,':',-1)) AS discount_amount

 FROM `ccf_offline_stage1_train`

 WHERE (Date != 'null' AND Coupon_id != 'null')

 AND (LEFT(DATE,4)=2016 )

 AND MID(DATE,5,2) = '06'

 GROUP BY Merchant_id ) BaseData

GROUP BY Merchant_id

ORDER BY SUM(discount_amount) DESC

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 阿里云天池大赛是一个非常有名的数据科学竞赛平台,其中机器学习竞赛是其中的一个重要组成部分。在这个竞赛中,参赛者需要使用机器学习算法来解决各种各样的问题,例如图像识别、自然语言处理、推荐系统等等。 机器学习竞赛的解题过程通常包括以下几个步骤: 1. 数据预处理:参赛者需要对提供的数据进行清洗、特征提取、数据转换等操作,以便于后续的建模和训练。 2. 模型选择:参赛者需要选择适合当前问题的机器学习算法,并对其进行调参和优化。 3. 模型训练:参赛者需要使用训练数据对模型进行训练,并对训练过程进行监控和调整。 4. 模型评估:参赛者需要使用测试数据对模型进行评估,以确定其在实际应用中的性能表现。 5. 结果提交:参赛者需要将最终的模型结果提交到竞赛平台上进行评估和排名。 在机器学习竞赛中,成功的关键在于对问题的深入理解和对机器学习算法的熟练掌握。同时,参赛者还需要具备良好的团队合作能力和沟通能力,以便于在竞赛中取得更好的成绩。 ### 回答2: 阿里云天池大赛是一个非常受欢迎的机器学习竞赛平台,它汇集了大量来自世界各地的数据科学家,分享了一系列有趣的竞赛和可用的数据集,供参赛选手使用。机器学习篇中,我们将解析一些常见的阿里云天池大赛题目,让大家对机器学习竞赛有更深入的了解。 一、赛题选取 阿里云天池大赛的赛题通常与商业、医疗等复杂领域相关,选择数据集时要了解行业背景和数据质量,以准确地判断模型的准确性和适用性。此外,在选择赛题时,还要考虑与参赛选手一起合作的可能性,以及他们可能使用的算法和技术。因此,为了成功解决赛题,参赛者应当仔细研究题目的背景、数据、分析目标等内容,有助于更好地理解问题及其解决方案。 二、数据清洗 参赛者在使用数据时,需要对其进行实质性的预处理和清洗工作,以减少不准确的数据对结果的影响。预处理和清洗包括基本的数据处理,例如缺失值、异常值和重复值的处理,还需要利用可视化和探索性数据分析等技术来检查数据的分布情况、相互关系和异常值等问题。 三、特征选择 在构建模型之前,参赛选手必须确定哪些特征会对问题的解决产生实际影响。这个过程称为特征选择,它旨在通过保留最相关的特征来减少模型复杂性,提高准确性,并且还有助于减少数据集的维数。特征选择包括基于统计学和机器学习的算法,同时应该考虑特征的相关性和重要性。 四、建模和评估 参赛者在解决问题时,需要考虑使用何种算法,以及如何构建对应的模型。此外,还需在不同的算法和模型之间进行比较,并选择最优模型。最后,应该针对模型进行评估,以确保各种重要性能指标(例如准确性,召回率,精确度等)都得到最佳表现。 总的来说,机器学习是一种复杂而令人兴奋的技术,参赛者要考虑数据质量、数据清洗、特征选择、建模和评估等诸多因素。通过参加阿里云天池大赛,大家可以不断学习和练习,不仅提升自己的技能,同时还有机会获得丰厚的奖励。 ### 回答3: 阿里云天池大赛是一个集数据竞赛、人才选拔、行业交流、技术分享、产学研合作等多种功能于一体的大型平台。其中,机器学习篇的赛题挑战包括了各种典型机器学习场景,旨在挖掘数据中价值,提高数据应用和解决实际问题的能力。 在机器学习篇的赛题中,常见的任务包括分类、回归、聚类、推荐等,其中分类问题是最常见的任务之一。分类可以分为二分类、多分类、超大规模分类等多个子类型。对于分类问题,大家需要学习分类算法,如KNN、NB、SVM、LR、GBDT、XGBoost等,并熟悉如何调参等技巧。 回归问题主要是根据给定的样本数据,预测一个连续的数值。回归问题旨在找到独立变量(X)和连续依赖变量(Y)之间的关系,以便使用该模型来预测连续依赖变量的值。对于回归问题,大家需要掌握线性回归、岭回归、Lasso回归、ElasticNet回归等算法。 聚类问题是将相似的数据划分到同一类别中,相似度较高,不同类别之间相似度较低。对于聚类问题,大家需要学习如何使用K-means、DBSCAN、Hierarchical聚类算法。 推荐问题是根据用户的行为习惯,预测用户的需求,以便将相应的内容推荐给用户。推荐问题的数据通常包括用户的行为、物品的属性和用户的评分。推荐问题常用的算法包括CF、ALS、LFM等。除此之外,还有深度学习在图像识别、语音识别、自然语言处理、推荐、游戏AI等方面具有广泛的应用,如CNN、RNN、LSTM、GAN等。 总之,机器学习篇的赛题挑战涉及到各种典型机器学习算法和应用场景,需要大家掌握基础理论和实践技巧,并多参加实战项目和比赛练习,不断提升自己的能力和水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值