天池SQL训练营Day04-集合运算-表的加减法和join等/2021-05-15

本笔记为阿里云天池龙珠计划SQL训练营的学习内容,链接为:https://tianchi.aliyun.com/specials/promotion/aicampsql

Day04: 集合运算-表的加减法和join等 Task04:集合运算-表的加减法和join等-天池龙珠计划SQL训练营-天池技术圈-天池技术讨论区 (aliyun.com)

练习

-- 4.1
-- 找出 product 和 product2 中售价高于 500 的商品的基本信息。

SELECT * 
FROM product
WHERE sale_price >500
UNION
SELECT * 
FROM product2
WHERE sale_price >500


-- 
-- 4.2
-- 借助对称差的实现方式, 求product和product2的交集。
-- 

SELECT * 
FROM    (SELECT * 
                FROM product 
                UNION 
                SELECT * 
                FROM product2)A
WHERE product_id 
NOT IN (SELECT product_id FROM product WHERE product_id NOT IN (SELECT product_id FROM product2)
                UNION
                SELECT product_id FROM product2 WHERE product_id NOT IN (SELECT product_id FROM product))


-- 4.3
-- 每类商品中售价最高的商品都在哪些商店有售 ?

SELECT hp.product_id,product_name,shop_name
FROM (SELECT product_id,product_name,p.product_type 
            FROM product    p
            INNER JOIN
            (SELECT product_type,max(sale_price) as sale_price
                FROM product P
                GROUP BY product_type    
             )a
             on p.product_type = a.product_type 
             and p.sale_price = a.sale_price)hp
INNER JOIN shop_product sp
on hp.product_id = sp.product_id
    


-- 
-- 4.4
-- 分别使用内连结和关联子查询每一类商品中售价最高的商品。

-- INNER JOIN
SELECT product_id,product_name,p.product_type 
            FROM product    p
            INNER JOIN
            (SELECT product_type,max(sale_price) as sale_price
                FROM product P
                GROUP BY product_type    
             )a
             on p.product_type = a.product_type 
             and p.sale_price = a.sale_price
-- 关联子查询
SELECT p1.product_id, p1.product_name, p1.product_type, p1.sale_price
FROM product AS p1
WHERE p1.sale_price = (SELECT MAX(sale_price) AS max_sale_price
                            FROM product AS p2
                            WHERE p1.product_type = p2.product_type
                            GROUP BY product_type);

 

-- 4.5
-- 用关联子查询实现:在product表中,取出 product_id, produc_name, slae_price, 并按照商品的售价从低到高进行排序、对售价进行累计求和。


 

 SELECT product_id, product_name, sale_price,
       (SELECT SUM(sale_price) FROM product AS p2
       -- ①价格更低的 ②价格相等,product_id不大于的(不包括下一行)
        WHERE ((P2.sale_price < P1.sale_price) OR (P2.sale_price = P1.sale_price AND P2.product_id<=P1.product_id))) AS cum_price
FROM product AS p1 
ORDER BY sale_price

天池大赛是国内知名的数据科学竞赛平台,零基础入门NLP - 新闻文本分类是其中的一项比赛任务。这个任务的目标是利用机器学习和自然语言处理的方法,对给定的新闻文本进行分类,即根据新闻内容判断其所属的类别。这个任务对于初学者来说是一个很好的入门项目。 在解决这个问题的过程中,我们需要首先对提供的训练数据进行探索性数据分析,了解数据的分布,词频以及类别的平衡情况。然后,我们可以进行文本预处理,包括分词、去除停用词、词干化等。接下来,可以构建特征示,可以使用TF-IDF、Word2Vec或者其他词嵌入模型来提取文本的向量示。在构建特征示后,可以选择合适的机器学习算法,如朴素贝叶斯、支持向量机、深度学习等,来训练分类模型。 在进行模型训练之前,可以将数据集分为训练集和验证集,用于模型的评估和调优。我们可以使用交叉验证,调整模型的超参数,选择现最好的模型。在模型训练完成后,可以使用测试集对模型进行评估,计算准确率、召回率和F1值等指标。最后,我们可以利用模型对给定的未知新闻文本进行分类预测。 在解决这个问题的过程中,还可以进行一些方法的优化和改进。比如,可以使用集成学习的方法,如随机森林、XGBoost或者LightGBM等,结合多个分类器的结果来提高整体的分类准确率。此外,可以尝试使用预训练的模型,如BERT等,来获得更好的特征示。此外,还可以尝试使用深度学习网络,如卷积神经网络或者循环神经网络,来提取文本的高级语义特征。 总之,零基础入门NLP - 新闻文本分类是一个很好的机会,可以学习和应用自然语言处理的知识和技术。通过解决这个问题,我们可以深入了解文本分类的基本概念和方法,提升自己在数据科学领域的能力和竞争力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值