秃头小菜鸟-CSDN博客

原创经典SQL必练习题（自己目前感觉挺全的）

一：创建表，导入数据具体的关于建表的代码，想要的朋友们可以在评论里面问我哈分别有4张表：course表，sc表，student表，teacher表course表：sc表student表：teacher表：二：开始刷题啦，加油1、查询“01”课程比“02”课程成绩高的所有学生的学号；SELECT t1.sid FROM ( SELECT sid, cid, score AS score1 FROM sc WHERE cid = 01 ) t1 LEFT JOIN

2020-11-24 21:44:39 1030 1

原创分组比较-如何求各个部门工资的最大值

在SQL刷题的过程中经常会遇到这类问题-关于分组比较的。在这里，自己经常使用2种方法第一个子查询，第二个则是窗口函数（这是真的香！）例子：题目来自leetcode上面的一道原题有两张表：分别是Employee表和Department表（1）Employee表（2）Department表要求得到：现在让你找出每个部门工资最高的员工及其部门名称和薪水方法一：常规（1）首先很明显我们先要在Employee表里面找到每个部门的最高工资-这里就要根据 DepartmentId分类select D

2020-08-03 21:14:19 2718 1

原创 xpath作业- 爬取站长素材中免费简历模板

爬取站长素材中免费简历模板注：自己只是爬取了一页的内容，没有实现分页功能，有兴趣的小伙伴，可以试试代码均已成功实现import requestsfrom lxml import etreeimport osif __name__ == "__main__": headers = { 'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 F.

2020-10-26 17:52:23 1206 18

原创组队学习之Task5 第三章模型建立和评估

第三章模型搭建和评估经过前面的探索性数据分析我们可以很清楚的了解到数据集的情况，以及得出了一些结论。下面我们将搭建一个预测模型，运用机器学习的方式来为泰坦尼克船只做一个预测，我们在测试集的数据中来预测哪些乘客将会存活，哪些乘客将遭遇不幸。然后我们会对我们的模型做一个评价。先一股脑导入常见的库import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPytho

2020-08-27 15:51:02 374

原创组队学习之Task 4 数据可视化

第二章：数据可视化这一part绘图，很多参数不知道开始之前，导入numpy、pandas以及matplotlib包和数据import numpy as npimport pandas as pdimport matplotlib.pyplot as plt %matplotlib inlineimport warningswarnings.filterwarnings("ignore")#加载result.csv这个数据text=pd.read_csv('result.csv')2.

2020-08-25 14:06:21 235

原创组队学习之Task3 数据重构

第二章：数据重构2.4 数据的合并2.4.1 将data文件夹里面的所有数据都载入，观察数据的之间的关系text_left_up=pd.read_csv('data/train-left-up.csv')text_left_down=pd.read_csv('data/train-left-down.csv')text_right_up =pd.read_csv('data/train-right-up.csv') text_right_down=pd.read_csv('data/train-

2020-08-22 14:51:17 191

转载正则表达式入门教程

偶然发现这篇教程，是位大牛写的，真好用https://deerchao.cn/tutorials/regex/regex.htm

2020-08-21 15:18:31 182

原创 Task 2 组队学习之数据清洗及特征处理

第二章：数据清洗及特征处理我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的亚子2.1 缺失值观察与处理我们拿到的数据经常会有很多缺失值，比如我们可以看到Cabin列存在NaN，那其他列还有没有缺失值，这些缺失值要怎么处理呢2.1.1 任务一：缺失值观察请查看每个特征缺失值个数方法一: Train_d

2020-08-20 22:28:10 332

原创组队学习之Task1：数据加载及探索性数据分析

第一章：数据载入及初步观察1.1 载入数据数据集下载https://www.kaggle.com/c/titanic/overview1.1.1 导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 载入数据(1) 使用相对路径载入数据Train_data=pd.read_csv('train.csv')Train_data.head(5) # 显然读入数据的前5行（2使用绝对路径载入数据Train_data=pd

2020-08-18 14:12:18 930

原创 reduce_mem_usage 函数通过调整数据类型，帮助我们减少数据在内存中占用的空间

在阿里天池，今天看到的有位大佬，关于减少DataFrame的占用内存的这个函数。放在这记录一下，后面再回头过来看看import pandas as pdimport numpy as npimport warningswarnings.filterwarnings('ignore')def reduce_mem_usage(df): """ iterate through all the columns of a dataframe and modify the data type

2020-08-04 14:50:54 665

原创简单学会SQL中列行转换

今天第一次接触SQL列行转换，自己是利用case when实现。一：关于case when的语法case [col_name] when [value1] then [result1] else [default] end其实类似于C语言中的switch case,先判断case里面的，在于when做判断。说的不是太清楚，后面会有例子来说明**二：案例说明** 图一：原department表（题目来自于leetcode）目标：列行转换，实现图二在这里插入代码片：第一步：先按照月份（mon

2020-07-28 16:26:15 914

原创偏态分布学习笔记（期望，中位数，众数）

一：偏态函数分类（1）正态（期望=中位数=众数）（2）正偏态：也称为右偏态（期望>中位数>众数）（3）负偏态：也称左偏态 (期望<中位数<众数)二：如何辨认正负偏态函数关键：看尾巴哪边长，左边尾巴长的成为左偏态（负偏态），反之右偏态（正偏态）三：关于期望，中位数，众数参考上面的草图：可以这样理解，（1）对于正偏态而言，数据大多分布在右侧，从而也就把期望与中位数往右侧移动。（2）对于负偏态而言，数据大多分布在左侧，从而也就把期望与中位数往左侧移动。...

2020-07-24 22:00:07 25691 5

秃头菜鸟的博客