自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我要学R

为了将来,每次积累一点点

  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive sql中的“坑”

最近开始接触hive sql,在这之前从来没用过,所以刚开始用的时候总是我觉得代码没问题但是总报错,经过各种查询和调试最终才解决问题,其中费了不少功夫。好在现在已经慢慢熟悉起来,用起来顺手了很多,这里记录一下我踩过的一些“坑”。1.不好用文字描述,这里直接举个例子:当select语句中的日期这样处理:SELECT concat_ws('_', substr(date_time, 1, 4), substr(date_time, 5, 2), substr(date_time, 7, 2)) ASn.

2021-07-07 23:18:50 432 2

原创 窗口函数排序

今天在学习窗口函数的时候发现使用rank()等函数mysql会报错,错误类型显示没有这个函数,经过咨询身边朋友才知道sql版本8以上才支持这个函数,我查了我的sql版本(用:select version())发现是5.6的版本,因此需要升级一下...

2021-04-27 17:36:36 1081

原创 MySql代码整理

在整理代码前先把涉及到的两个表放到前边(声明一下:这两个表是我根据所需字段自己编的)表1表2

2021-04-12 23:23:18 387

原创 相关性与因果关系

乍一看题目有点摸不着头脑,相关性跟因果关系好像有某种联系但又不好明说到底是什么关系。想了一下大概就是如果具有相关性,那这种相关不一定是因果关系;如果存在因果关系那他们一定存在相关性。在统计学上具有很强相关性的两个变量并不一定能证明这两个变量有因果关系,可能是这两个变量随第三个隐藏变量一起变动或者只是随机偶然的结果。统计学检验证明不出这两个是否具有因果关系,但是可以做精密的实证研究。...

2021-04-09 23:44:29 1859

原创 常用数据指标整理

注:文中涉及指标在不同行业甚至不同公司意义不一定完全一样,这里只指在广告领域,在我所在公司的意义。具体实用意义应当以所处情况来决定。ROI(Return on Investment):投资回报率 = 一段时间内新增用户收入/一段时间内广告花费*100%ROAS(Return on AD Spending):广告投资回报率 = 当天新增收入/当天广告花费*100%CPI(Cost Per Install):单次应用安装费用 = 花费/安装次数CPM(Cost Per Mille Impress

2021-04-08 16:15:45 311

原创 Google广告数据分析与优化总结

在这里分享一个之前广告优化比较成功的案例,为了保护数据的隐私性,这里会将部分数据特殊处理。首先要说明下这个广告计划的大体情况:

2021-03-21 13:39:11 5812 3

原创 白酒数据分析

最近在考虑换数据分析的工作,因此找了一些数据做分析练习,这篇博文涉及到的是来自天猫超市的白酒数据分析。文章会以影响销量的因素为主线同时在整个过程中会做一些小延伸。数据以及代码会放在资料中,想复现的童鞋可以自行下载。1.数据介绍白酒数据是来自天猫超市的白酒商品信息数据,去重之后共计8133个样本,10个特征,具体的详情如下:2.分析目标对于商家来说销量是最值得关注的特征,下面就来探索不同因素是怎样来影响销量的。首先,从大的方面来讲,影响因素可以分为两部分:市场环境跟酒的属性。市场环境这个很

2021-03-14 16:34:32 2952 5

原创 过去小项目之kaggle社区问卷调查分析

今天先整理一个毕业之前做的小项目,项目是用R语言做的,最终用Rmarkdown生成最终报告结果,文章的最后我会把Rmarkdown文件跟原始数据放在

2021-03-13 23:10:50 478

原创 2021-03-12 碎碎念

距离大学毕业已经一年多,不得不说时间过得是真快呀。这一年多的光景我的思想成长了不少,尤其是疫情的那段时间,相信很多人跟我一样内心有了一些更豁然开朗的想法,对自己的人生也多了一些想法跟安排。 毕业之后一直在一个不大的甲方公司做海外广告优化师,这个岗位的薪资待遇跟发展前景都是还不错的,一开始以为可能我会一直干下去,就算换工作下一份也还是做优化师。但是后来局势有变,疫情的爆发让国内外都不得安宁,之后tiktok跟一些在国外的本国企业接连被打击,市场形势很不稳定,让我意识到之后的出海并不会变得更加...

2021-03-12 16:11:05 123

原创 R跟SQL连接

以下是将R跟SQL连接之后取数据的代码,调用函数时直接调用函数,将SQL语句输入其中并用双引号引起来。sql_fetch <- function(statement){ library(tidyverse) library(RMySQL) connect_data <- dbConnect(MySQL(), port = 3306,...

2019-06-26 23:30:50 1165

原创 R文件批量读取并批量命名

#文件批量读取且以文件名命名每一个文件,这里以excel文件读取为例setwd("E:/###########")myexcelfile = list.files(pattern = "*.xlsx")list2env( lapply(setNames(myexcelfile, make.names(gsub("*.xlsx$", "", myexcelfile))), ...

2019-06-26 23:17:49 6174

原创 数据分析之路-excel常用函数

今年6月18刚毕业,我现在在一个公司上班,但是工作并不是我想做的数据分析,这份工作只是跟我想做的沾点边,但是我还是想从事数据分析工作。而之前虽然我学的数据分析的东西还是比较多的R和PYTHON都有涉及,但是并没有系统性的学习过,所以我想从头开始走一遍数据分析之路。明天我打算在这个公司转正,这周六日我学习了excel的常用函数,共52节课,做好了笔记,打算放到这里以供自己和大家查阅。这套课程来自...

2019-06-23 23:34:48 988

原创 未来面试之四:聚类

胡说八道时间过的真快呀,又到了周六了。还赶上五一小长假,别提有多惬意啦。还是放假比较好呀,唉。可是学习还是得学呀,不然谁来为你的未来负责,今天来写写非监督学习:聚类。学习一般来说,训练深度学习网络的方法主要有四种:监督学习、非监督学习、半监督学习和强化学习(强化学习可能是后来才有的,以前没有听说过这个东西)。先说说监督学习:通过已有的训练样本来训练,从而得到一个最优模型,再利用这个...

2018-04-29 20:53:41 2060

原创 未来面试之三:knn近邻算法

这周来个简单的算法好啦。我记得当时学的最简单的一个算法就是K近邻算法,它简单到什么程度呢?可以说它是我学过的算法中最简单的一个。但是呀,它的作用很不小嘞。初识KNN近邻分类被称为“懒惰学习”算法。原理很简单,就是把未标记的案例归类为与他们最为相似的带有标记的案例所在的类,尽管这一想法很简单,但是紧邻分类及其强大(具体多强大我也体会不出来,反正就是既简单又强大),应用呢,离我们最近的就是预测...

2018-04-21 21:19:22 1651

原创 未来面试之二:随机森林

写在前面的话上一篇博文讲过了决策树啦,正好给这一篇的随机森林做铺垫(讲真,我是想先讲随机森林的,无奈随机森林的基础是决策树,因此只能先决策树知识来一波)。至于我为啥这么稀罕随机森林呢,是因为从进科研室的时候起,我就对随机森林这个名字产生了特殊的兴趣,因为一听这个名字,你会不由得想到一片绿油油的森林。但是,它明明是个模型的嘛。内心很纠结,就小小的学习了下其中的原理,嘿,原理倒不难理解,但是功能却...

2018-04-14 17:34:08 3092

原创 未来面试之一 :决策树算法原理

写在前面的话 进入科科研室之后在组长的带领下也学了快有一年的R语言了,很快就要去找实习进行面试了。而面试难免会被问及很多的经典算法原理,从学习到现在,还从来没有将某一个算法完完整整的按照自己的理解去讲解出来,也从来没有进行过系统性的总结。总之就是学的时候没有构建起一种知识体系。但是为了能在将来的面试中不被问的一句也说不出来,因此,咸鱼也决定翻翻身。从现在开始每周一个算法讲解,在讲的同时,...

2018-04-07 21:39:17 1337

kaggle社区问卷调查分析.zip

kaggle社区问卷调查分析的RMD文档跟原始数据资源

2021-03-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除