![](https://img-blog.csdnimg.cn/20200501153752291.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据类
文章平均质量分 89
牛客网上sql练习题笔记
数据分析和挖掘的书籍读书笔记
更多题目笔记参我的GitHub:https://github.com/BBT0524/exercises_for_sql
楚江客
这个作者很懒,什么都没留下…
展开
-
DeepAR论文笔记
1. what is motivation?研究动机在近年来,时间序列预测出现新局面:海量(上千甚至是上百万)相关时间序列的预测。例如,预测城市中每户居民的用电量,大型零售商所有商品的销量等。在上述所有场景中,可以使用那些过去相似、或相关的时间序列来对单个时间序列进行建模预测。 这样做的优势是:可以拟合复杂模型而不产生过拟合,免去传统机器学习中所必须的大量人工特征制作的过程。2. What is the problem the paper wants to solve?论文想要解决的问题是什么?海量(原创 2021-07-15 22:21:47 · 1121 阅读 · 1 评论 -
PoissonRegression
1.3 Poisson回归1.3.1 Poisson回归建模的动机我们所感兴趣的因变量y\bold{y}y是计数数据count data,而且不是正态分布的,即是稀有事件。例如,生产线上的不合格产品的数目,软件中的bug数,每天接到电话的数目。而且1(1) 在一个短区间Δz\Delta zΔz内,发生一次事件的概率与Δz\Delta zΔz成正比: ηΔz\eta \Delta zηΔz 。(2) 在短区间Δz\Delta zΔz内发生两次及以上事件的概率可以忽略。(3) 在不重叠的短区间Δz\D原创 2021-04-26 11:32:10 · 849 阅读 · 0 评论 -
ch-11-移动窗口函数
移动窗口函数移动窗口函数可以理解为时FIR滤波器,只不过这里是滤波器在运动,而不是信号在运动。但是从相对运动的角度来说,移动窗口函数就是FIR滤波器数据样例载入一个时间序列,并且按照工作日频率进行重新采样。import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# %matplotlib inlineclose_px_all = pd.read_csv("data/stock_px_2.csv") close原创 2021-01-01 23:28:44 · 456 阅读 · 0 评论 -
读书笔记 -- 电子商务相关的数据指标
指标只有放在一定的场景下,找到最合适的对象,并且使用最重要的数据源才有意义,这句话同样适用于零售数据的特征工程。1. 电商数据分析指标和销售策略分析指标线上零售不受时间和空间限制,可以靠每个品类的长尾产品的累积销售来生存。电商的数据更大,包括营销数据、流量数据、会员数据、消费行为数据等,这些数据24h不停地产生。1.1 电商数据(1)营销数据:营销费用、覆盖用户数、到达用户数、点击用户数;(2)流量数据:浏览量(PV)、访客数(UV)、登录时间、在线时长;(3)会员数据:会员姓名、出生日期、真实原创 2020-12-06 21:39:47 · 659 阅读 · 0 评论 -
读书笔记--零售业概览:未来和现在
零售业认识<个人的读书笔记和神神叨叨的理解,写在这里,记录自己的认识和理解>目的:零售业基本认识:零售概念,特点。未来新经济环境和数字环境下的零售业。1. 零售业基本认识1.1 零售概念市场经济中,交易使得社会分工成为可能,零售就是一种重要的交易方式。狭义零售是指大批量购入产品,然后小批量出售给消费者的买卖行为,如小卖店、便利店和超市就是零售代表。广义零售指的是企业向大量消费者出售产品或服务的行为,例如银行或保险服务的销售。顾客不仅会为售卖的物美价廉的产品买单,还会为零售商的人原创 2020-12-06 16:23:27 · 215 阅读 · 1 评论 -
读书笔记:为啥要有Hive?Hadoop上查询性能问题
因为提数需要用到Hive,于是阅读《Hive实战》,并整理成笔记, 下面是来自我:一个数据开发路人甲的理解,如何不当欢迎留言或私信。1. 再认识Hadoop粗略地说,Hadoop是针对大数据处理的创新技术。而对于创新,书中提到了一个很有意思的认识框架“创新至少需要3个要素”:一种迫在眉睫的需求,一个可以识别的问题,和金钱。按照这里理论,书中给我们提供了一个新的认识Hadoop技术的角度:Hadoop为解决何种类型公司的何种业务需求?Hadoop要解决的什么类型的可识别问题?1.1 Hadoop为解决何原创 2020-11-28 16:14:29 · 391 阅读 · 0 评论 -
读书笔记:影响销量的因素
接下来一段时间要做个门店的销量预测的项目,对于研究对象,我们要有准确和全面认知,于是就开始了门店销量方面的阅读积累。1. 产品销量的问题认识从最简单的客户购买过程入手,有两方面因素影响客户购买决定:(1)客户希望购买的物品是物美价廉的。(2)购买过程中得到满意的服务。所谓满意的服务即是人性化服务。这两方面因素影响比重不同,第2个人性化服务因素占比近70%,这个很重要 。而且比较重要的是“人性化客户服务质量”这个因素比较稳定,不会短时间内突变。据此,我们假设“人性化的客户服务质量”是和产品销量强相关的。原创 2020-11-27 21:50:07 · 1045 阅读 · 0 评论 -
一段代码引发的自我反思:MECE法则与三思而后行
一段代码引发的自我反思:MECE法则与三思而后行1. 问题背景这段代码长下面这个样子。我的目标是将spark.DataFrame数据类型转换为可以在python中接受的数据格式以便能够画图进行可视化分析。方式1是将spark.DataFrame转换成spark.RDD然后再以list格式返回给驱动程序,再转换为字典的数据格式。想法很美好,但是一直无法运行,并且让我纠结了两个小时。方式2是在洗漱时候突然想到的解决方法,直接将spark.DataFrame转换成pandas.DataFrame。我要反思原创 2020-09-30 11:50:38 · 244 阅读 · 0 评论 -
mapReduce原理和PySpark
相关练习题代码见链接,代码是ipynb带有运行结果,配合查看更容易理解。内容:MapReduce的基本原理Pyspark的基本数据结构RDD和DataFrame的创建和查询1. MapReduce原理初步认识说明例子:统计多个文件中单词的数量;如果是单个文件的话,一般的做法是:遍历文件中每个单词,然后建立单词到数量的哈希映射(即map过程),这样就得到了每个单词的数量统计;简单理解为单兵作战。现在问题变成有多个文件,数据量增加了,这种情况下如何快速高效地统计单词数量?显然在单线程上能做的原创 2020-09-26 17:31:12 · 1087 阅读 · 0 评论 -
数据化决策-数据分析与高效经营1
本书的特点是,将数据分析和企业经营管理结合的很好,内容实例很详实,很能印证作者的观点。其中,很多统计学的知识并不新鲜,多数的大学课堂都有学过,但是这些知识和企业的营销方式和管理决策结合部分内容,令人耳目一新,会对统计学知识有了更鲜活的理解。1. 数据科学家专业素养专业素养原因备注重视不同的标准只有这样才能关注到那些和目标最相关的标准《点球成金》中男主比恩选择了上垒率,而不是传统经验的安打率和奔跑速度;设定并不断完善关键指标真理本身就需要不断被完善,此外浩如烟海的数据容易原创 2020-09-24 16:38:17 · 1412 阅读 · 0 评论 -
增长黑客笔记2:方法论与底层逻辑
增长黑客笔记2:方法论与底层逻辑数据类读书笔记必看的大数据思维活用数据笔记1 – 营销业务数据分析概览活用数据笔记2 – 数据分析底层逻辑增长黑客笔记1:概览增长黑客笔记2:方法论与底层逻辑1.增长黑客的方法 序号 方式 内容 笔记 1 搭建增长团队 (1)增长团队是扁平化的,要团队内不同职能个人间的合作,而不是不同职能部门级别的原创 2020-08-21 19:06:01 · 485 阅读 · 0 评论 -
必看的大数据思维
1. 概述对本书第一部分“大数据时代的思维变革”的主要观点及其论证过程。下表是大数据时代看待事物的底层逻辑。表1:大数据时代的大数据处理理念序号观点论证过程备注译者观点1全体优于抽样1) 随机抽样的缺陷:随机性影响结果准确性、不适合考察子类别情况;2) 列举使用全体数据的大数据分析应用成功的例子。1) 大数据中的大指的是大多数情况的意思;2) 例证的例子有:相扑中非法操纵比赛的发现;社会科学社区关系网的研究。基本认同2效率优于绝对精确1) 葡萄园测温例原创 2020-08-11 17:48:29 · 736 阅读 · 0 评论 -
增长黑客笔记1:概览
增长黑客笔记1:概览精准营销类读书笔记活用数据笔记1 – 营销业务数据分析概览活用数据笔记2 – 数据分析底层逻辑增长黑客笔记1:概览1. 增长黑客是什么增长黑客本质上就是精准营销方式。笼统地讲是“利用软件开发(即所谓的黑客)将营销(即增长)嵌入产品本身”,以实现低成本、高性价比的精准营销1。但是这种表述并没有讲清楚“营销”和“软件开发”之间的相互作用和联系。我觉得更贴近增长黑客本质的观点是:增长是通过设计出可以大规模使用的系统(开发), 让用户来替我们实现产品的增长(营销)2。下面是我的原创 2020-08-19 23:50:33 · 156 阅读 · 0 评论 -
活用数据笔记1 - 营销业务数据分析概览
活用数据笔记1 - 营销业务数据分析概览1. 内容本书谈的更多的是在营销业务需求面前,数据分析工作要怎么想和怎么做?2. 怎么想?-- 业务驱动 + 思维先导2.1 明确业务需求通过业务需求知道数据分析思考的范围, 这是一个发散扩张的过程。具体有哪些业务需求需要进行数据分析?满足这些业务需要需要哪些数据分析专题?以营销问题为例,其业务需求和数据分析专题见下表: 营销问题 业务需求 数据分析专题 .原创 2020-08-14 21:28:57 · 258 阅读 · 0 评论 -
活用数据笔记2--数据分析底层逻辑
活用数据笔记目录:营销业务数据分析概览数据分析底层逻辑数据分析底层逻辑1. 内容关于数据分析的底层逻辑数据分析思路过程,如何实现不重不漏的分析;提升分析价值,使得分析不仅仅停留在数羊的水平,而是能够为企业的经营提供有价值的分析。2. 数据分析思路:如何不重不漏?数据分析思路是从研究目的到研究内容的分解过程,是对需求的细化。开启分析思路的三种方法:学会提问、熟悉模型、掌握结构化思维。表1:不重不漏的数据分析思路 方法 内容 .原创 2020-08-16 22:24:51 · 766 阅读 · 0 评论 -
模型学习笔记--广播模型
因为武汉疫情问题,开学日期被延后,闲来无事学学和疫情有关的数学模型。比如政策和消息之类的传播1.为什么?该小节试图解决的问题是:为什么需要广播模型?广播模型可以刻画了思想、谣言、信息或技术通过互联网、电视等媒体进行的传播。也适用于供水系统中的污染传播情况。抽象地描述就是:适合描述只从信息源获取信息的情况,所以广播模型更适合描述思想和信息的传播。而不适合描述人与人之间的传染病的传播。...原创 2020-01-28 00:51:49 · 1060 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 字符串连接 || 与 concat()
sql321. 题目描述将employees表的所有员工的last_name和first_name拼接起来作为Name,中间以一个空格区分(注:该数据库系统是sqllite,字符串拼接为 || 符号,不支持concat函数)CREATE TABLE `employees` ( `emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16)原创 2020-08-15 15:33:25 · 235 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 通配符%和以扩充表的角度理解内连接
sql281. 题目描述film表字段说明film_id电影idtitle电影名称description电影描述信息CREATE TABLE IF NOT EXISTS film (film_id smallint(5) NOT NULL DEFAULT '0',title varchar(255) NOT NULL,description text,PRIMARY KEY (film_id));category表字段说明.原创 2020-08-15 14:36:16 · 189 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 自连接的查薪资涨幅
sql271. 题目描述给出每个员工每年薪水涨幅超过5000的员工编号emp_no、薪水变更开始日期from_date以及薪水涨幅值salary_growth,并按照salary_growth逆序排列。提示:在sqlite中获取datetime时间对应的年份函数为strftime(’%Y’, to_date)(数据保证每个员工的每条薪水记录to_date-from_date=1年,而且同一员工的下一条薪水记录from_data=上一条薪水记录的to_data)CREATE TABLE `salar原创 2020-08-14 20:13:15 · 247 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 求比manager工资还要高的员工:对表salaries进行联表
sql251. 题目描述获取员工其当前的薪水比其manager当前薪水还高的相关信息,当前表示to_date=‘9999-01-01’,结果第一列给出员工的emp_no,第二列给出其manager的manager_no,第三列给出该员工当前的薪水emp_salary,第四列给该员工对应的manager当前的薪水manager_salaryCREATE TABLE `dept_emp` (`emp_no` int(11) NOT NULL,`dept_no` char(4) NOT NULL原创 2020-08-13 19:01:52 · 148 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 多表联查求补集:not in、left join 、except
sql241. 题目描述获取所有非manager员工当前的薪水情况,给出dept_no、emp_no以及salary ,当前表示to_date=‘9999-01-01’CREATE TABLE `dept_emp` (`emp_no` int(11) NOT NULL,`dept_no` char(4) NOT NULL,`from_date` date NOT NULL,`to_date` date NOT NULL,PRIMARY KEY (`emp_no`,`dept_no`));C原创 2020-08-13 18:15:57 · 620 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 排名的三种方式:自连接/ 聚合, 自连接/关联子查询, 窗口函数dense_rank()
sql231. 题目描述对所有员工的当前(to_date=‘9999-01-01’)薪水按照salary进行按照1-N的排名,相同salary并列且按照emp_no升序排列CREATE TABLE `salaries` (`emp_no` int(11) NOT NULL,`salary` int(11) NOT NULL,`from_date` date NOT NULL,`to_date` date NOT NULL,PRIMARY KEY (`emp_no`,`from_date`))原创 2020-08-13 13:28:35 · 389 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 用拼接新表的视角理解内联表(inner join)
sql211. 题目描述统计各个部门的工资记录数,给出部门编码dept_no、部门名称dept_name以及部门在salaries表里面有多少条记录sumCREATE TABLE `departments` (`dept_no` char(4) NOT NULL,`dept_name` varchar(40) NOT NULL,PRIMARY KEY (`dept_no`));CREATE TABLE `dept_emp` (`emp_no` int(11) NOT NULL,`dept_原创 2020-08-13 11:47:57 · 155 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 连接两次子查询返回表获取员工薪资涨幅
sql211. 题目描述查找所有员工自入职以来的薪水涨幅情况,给出员工编号emp_no以及其对应的薪水涨幅growth,并按照growth进行升序(注:可能有employees表和salaries表里存在记录的员工,有对应的员工编号和涨薪记录,但是已经离职了,离职的员工salaries表的最新的to_date!=‘9999-01-01’,这样的数据不显示在查找结果里面)CREATE TABLE employees (emp_no int(11) NOT NULL,birth_date date原创 2020-08-13 08:42:50 · 145 阅读 · 0 评论 -
牛客SQL练习题笔记 -- SQL补集的实现:所有非manager的员工
1.sql10 所有非manager的员工emp_no题目描述获取所有非manager的员工emp_noCREATE TABLE dept_manager (dept_no char(4) NOT NULL,emp_no int(11) NOT NULL,from_date date NOT NULL,to_date date NOT NULL,PRIMARY KEY (emp_no,dept_no));CREATE TABLE employees (emp_no int(11) NOT原创 2020-08-10 17:32:31 · 273 阅读 · 0 评论 -
牛客SQL练习题笔记 -- 三张表之间键关联的两种方法
1.sql19题目描述查找所有员工的last_name和first_name以及对应的dept_name,也包括暂时没有分配部门的员工CREATE TABLE departments (dept_no char(4) NOT NULL,dept_name varchar(40) NOT NULL,PRIMARY KEY (dept_no));CREATE TABLE dept_emp (emp_no int(11) NOT NULL,dept_no char(4) NOT NULL,fr原创 2020-08-10 17:21:21 · 307 阅读 · 0 评论 -
牛客SQL练习题笔记--比较子查询的练习
1.sql20题目描述查找员工编号emp_no为10001其自入职以来的薪水salary涨幅(总共涨了多少)growth(可能有多次涨薪,没有降薪)CREATE TABLE salaries (emp_no int(11) NOT NULL,salary int(11) NOT NULL,from_date date NOT NULL,to_date date NOT NULL,PRIMARY KEY (emp_no,from_date));2. 解法2.1 最大值减去最小值因为没有降原创 2020-08-10 17:16:45 · 158 阅读 · 0 评论 -
牛客SQL练习题笔记-- 第k个记录项确定:自连接+group by方法以及其他方法
1.sql18题目描述查找当前薪水(to_date=‘9999-01-01’)排名第二多的员工编号emp_no、薪水salary、last_name以及first_name,你可以不使用order by完成吗CREATE TABLE employees (emp_no int(11) NOT NULL,birth_date date NOT NULL,first_name varchar(14) NOT NULL,last_name varchar(16) NOT NULL,gender c原创 2020-08-10 17:08:07 · 307 阅读 · 0 评论 -
牛客SQL练习题笔记-- 去重的两种方式 distinct 和 group by
1.sql 14题目描述从titles表获取按照title进行分组,每组个数大于等于2,给出title以及对应的数目t。注意对于重复的emp_no进行忽略(即emp_no重复的title不计算,title对应的数目t不增加)。CREATE TABLE IF NOT EXISTS titles (emp_no int(11) NOT NULL,title varchar(50) NOT NULL,from_date date NOT NULL,to_date date DEFAULT NULL原创 2020-08-10 17:00:11 · 206 阅读 · 0 评论 -
牛客SQL练习题笔记 - group by 下的select注意事项
1.sql12所有部门中当前员工的当前薪水最高的相关信息获取所有部门中当前(dept_emp.to_date = ‘9999-01-01’)员工当前(salaries.to_date=‘9999-01-01’)薪水最高的相关信息,给出dept_no, emp_no以及其对应的salary。CREATE TABLE dept_emp (emp_no int(11) NOT NULL,dept_no char(4) NOT NULL,from_date date NOT NULL,to_date d原创 2020-08-10 16:55:50 · 420 阅读 · 0 评论