数据分析
数据分析
For Coding
这个作者很懒,什么都没留下…
展开
-
Mysql45道必刷题
1、查询" 01 "课程比" 02 "课程成绩高的学生的信息及课程分数select s.*, t.sc1_score, t.sc2_scorefrom student s, (select sc1.SId, sc1.score as sc1_score, sc2.score as sc2_score from sc sc1, sc sc2 where sc1.CId = '01' and sc2.CId = '02' .原创 2021-03-16 21:52:26 · 193 阅读 · 0 评论 -
pandas中的groupby函数的使用
df = pd.DataFrame(data={'books':['bk1','bk1','bk1','bk2','bk2','bk3'], 'price': [12,12,12,15,15,17]})df.groupby('books', as_index=True).sum()df.groupby('books', as_index=False).sum()原创 2021-03-16 09:54:07 · 582 阅读 · 0 评论 -
Hive&Mysql窗口函数详解—及3套案例练习
PRECEDING:往前FOLLOWING:往后CURRENT ROW:当前行UNBOUNDED:起点(一般结合PRECEDING,FOLLOWING使用)UNBOUNDED PRECEDING 表示该窗口最前面的行(起点)UNBOUNDED FOLLOWING:表示该窗口最后面的行(终点)比如说:ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW(表示从起点到当前行)ROWS BETWEEN 2 PRECEDING AND 1 FOLLOWIN原创 2021-03-14 13:18:57 · 280 阅读 · 0 评论 -
数据分析SQL面试题目9套汇总
面试题1create table datafrog_test1(userid varchar(20),changjing varchar(20),inttime varchar(20));insert into datafrog_test1 values(1,1001,1400),(2,1002,1401),(1,1002,1402),(1,1001,1402),(2,1003,1403),(2,1004,1404),(3,1003,1400)(4,1004,1402),(原创 2021-03-13 09:57:52 · 310 阅读 · 0 评论 -
MySQL列分割成多行的方法
面试题目:表中有两列数据,一列是userid,一列是用户标签tag,标签类别总共有10个,每个用户可以拥有多个不同的标签,不同的标签之间用逗号隔开。问:输出每个标签的用户数,谁拥有的标签最多,哪个标签拥有用户最多?答案:# 谁拥有的标签最多select a.userid, a.str_countfrom (select *, dense_rank() over (order by t.str_count desc ) as t_rank from (select *,原创 2021-03-12 17:05:24 · 474 阅读 · 0 评论 -
求最长公共子串长度与最长公共子串问题/求最长公共子序列长度与最长公共子序列问题
import numpy as npstr1 = 'abaccb'str2 = 'aaccab'tmp_str1 = str1tmp_str2 = str2str1 = '0' + str1str2 = '0' + str2len1 = len(str1)len2 = len(str2)dp = np.zeros((len1, len2), dtype=np.int)for i in range(1, len1): for j in range(1, len2):原创 2021-03-10 15:04:56 · 163 阅读 · 0 评论 -
牛客网数据库刷题答案
1、select * from employees where hire_date=( select max(hire_date) from employees );2、select t.emp_no,t.birth_date,t.first_name,t.last_name,t.gender,t.hire_date from (select *, row_number() over (order by hire_date desc) as t_rankfrom empl原创 2021-03-09 22:25:17 · 349 阅读 · 0 评论 -
数据分析面试
集成学习思想: 两个流派: 1、Boosting 通过将弱学习器提升为强学习器的集成方法来提高预测的精度。 典型算法:AdaBoost、GBDT 2、Bagging 通过自动采样的方法生成众多并行式分类器,通过“少数服从多数”的原则来确定最终的结果。 典型算法:随机森林 思想:一棵树是决策树,多棵树就是随机森林,解决了决策树泛化能力弱的缺点。 随机:随机选择样本、随机选择特征 集成学习:投票机制 GBDT概念: GBDT由3部分组成,DT(Re原创 2021-03-09 14:20:29 · 131 阅读 · 1 评论 -
数据分析中9个Excel常用的函数
1、Excel常见的页面操作: 1)冻结窗口及筛选 1.1 冻结窗口 自动以冻结:视图->拆分->拖拉线条->再点击冻结窗口 2)选中整行/列 ctrl+shift+向右/向下箭头 3)去重 数据->重复项->删除重复项 4)排序 自定义排序 2、VLOOKUP函数 VLOOKUP(第一个参数标识检索值,第二个参数是检索范围,需要查找检索范围内的哪一列数据,第四个参数如果填0就是精确查找,.原创 2021-03-09 14:14:20 · 589 阅读 · 0 评论 -
牛客网Mysql刷题笔记
mysql: 1、判断一个字段是否为奇数/偶数 mod(id,2)=1 奇数 mod(id,2)=0 偶数 select * from employees where mod(emp_no,2)=1 and last_name!='Mary' order by hire_date desc;原创 2021-03-04 15:15:32 · 433 阅读 · 3 评论 -
数据分析中相关性分析相关的概念
期望:是描述一组数据的中心倾向的一个指标之一。(均值,求平均数)方差:是描述一组数据的离散程度的指标,标准差即方差的开方。协方差: 是用来衡量两个变量的总体误差,如果两个变量的变化趋势一致,协方差就是正值,说明两个变量正相关。 如果两个变量的变化趋势相反,协方差就是负值,说明两个变量负相关。 如果两个变量相互独立,那么协方差就是0,说明两个变量不相关。相关系数:一般可以使用相关系数来衡量两组数据的相关性,相关系数的取值范围为[-1,1],-1表示完全负相关,+1表示完全正相关。相关性系原创 2021-03-04 10:27:27 · 1821 阅读 · 1 评论 -
pandas 实例操作:美国人口案例分析
pandas 案例分析:美国人口案例分析'''需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而去除掉stat...原创 2020-04-17 22:05:39 · 423 阅读 · 0 评论 -
数据分析-pandas-DataFrame结构
数据分析-pandas-DataFrame结构DataFrame的创建:数据类型可以是列表、数组、字典import numpy as npimport pandas as pd'''DataFrame的创建,data的类型可以是列表、array、字典'''data = [['zhangsan', 12, '北京'], ['lisi', 34, '上海']]# 列表# frame = pd.DataFrame(data=data, columns=['name', 'age', 'add原创 2020-06-05 10:27:01 · 131 阅读 · 0 评论 -
matplotlib绘制子图
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltx = np.linspace(-100, 100, 1000)y1 = xy2 = x ** 2y3 = x ** +2 * xfig = plt.figure()subplot1 = fig.add_subplot(3, 1, 1)subplot2 = fig.add_subplot(3, 1, 2)subplot3 = fig.add_subp原创 2021-02-16 09:55:53 · 89 阅读 · 0 评论 -
pandas中绘制图像,图像中带有x^2,可以表示出来
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltx = np.linspace(-100, 100, 1000)y1 = xy2 = x ** 2y3 = 3 * x ** 3 + 5 * x ** 2 + 2 * x + 1print(y1)print(y2)print(y3)plt.plot(x, y1, 'o-r', label='y=x')plt.plot(x, y2, 'o:g',原创 2021-02-16 09:39:47 · 234 阅读 · 0 评论 -
pandas使用中的axis的理解,巧妙清楚
import pandas as pdimport numpy as npdata = pd.DataFrame(data=np.arange(12).reshape(3, 4), columns=['A', 'B', 'C', 'D'])print(data)# axis的理解,axis=1,是指删除列,axis=0是指删除列,若不记得,则直接指定参数未columns# data = data.drop('A', axis='columns')# data = data.drop('A'原创 2021-02-13 19:54:53 · 420 阅读 · 0 评论 -
关于numpy模块中随机生成数据的numpy.random使用的总结
"""np.random.rand(d0, d1, ..., dn) 返回[0.0,1.0)内的一组均匀分布的数。np.random.randn(d0, d1, …, dn) 返回一个或一组样本,具有标准正态分布。np.random.normal(loc=0.0, scale=1.0, size=None)np.random.uniform(low=0.0, high=1.0, size=None)np.random.randint(low, high=None, size=None,原创 2021-02-11 10:18:57 · 451 阅读 · 0 评论