自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Hello world!

统计学背景,data science初学,代码渣渣

  • 博客(10)
  • 收藏
  • 关注

原创 【社招面经】某厂数据挖掘岗位一面

开头依然自我介绍+依照项目发问。1 异常数据分析。我的简历里写到这条,他让我着重说了一下,然后我介绍了一下捕捉异常数据的方法,都是依据业务给规则来输出的异常。所以面试官问为什么选择用规则而不用异常检测的模型。这个问题问得挺好,用模型识别异常数据泛化性更强,并且随着业务的增长,阈值等也可以动态变化。但用规则的原因可以分两点:第一,规则便于业务人员理解,项目是业务主导,且项目时间较短,设置规则识别异常可能是短时间内最快且直接的途径。模型或算法的结果可能难以在短时间内超过业务规则,不过在二期可以优化;第二

2021-03-20 20:47:36 540

原创 【社招面经】某大厂数据研发/数据仓库的岗位

自我介绍+介绍项目,时间大概半个多小时,主要是针对项目发问。1、流失模型,看三月份连续7天流失,要怎么计算。然后我说了一下我司流失的定义并非互联网那种流失,我们是拿单日离职人数/当日在职人数。查了下留存率核心代码,大概是两表以用户关联后,countdistinct去重,算间隔日期啥的就行。,count(distinct p1.user_id) total_cnt,count(distinct if(datediff(p2.state,p1.state) = 7, p1.user_id,.

2021-03-20 17:21:25 456

原创 某大厂大数据开发工程师(偏数据仓库)社招面经

从校招之后两年多以来的第一次面试,感觉一般。记录一下。1、问项目,以及你在其中参与的角色,遇到的挑战之类的。2、继续基于项目发问,因为我之前做的都是离线数据开发,问 怎样保障数据及时准确出具?3、数据仓库分层思想,可以结合自己公司数仓的情况4、有没有听过cude表(我没有……)5、事务性数据库和数据仓库在建表时遵循怎样的范式(我说了第一范式的开头,面试官说他要的不是这个…其实是问我这两类数据库的表建表规范有什么不同)6、数据倾斜的原理,表现,解决办法(解决办法我提到一个是把倾斜数据单

2021-03-11 00:38:43 1016 1

原创 【案例】mysql创建索引中字段顺序的重要性(命中规则)

之前只知道索引会让查询效率变快,各种博文也只是介绍触发联合索引的条件是在where条件里使用联合索引的全部索引键,可触发索引的使用。但都没有提到在联合索引里设置的字段顺序会大大影响查询效率!!拿一个简单的查询语句举例,我们想获取表a里特定城市(e.g.深圳)一年的某个指标值:select month_code, dept_code, city_name, index_code, index_name, index_level, index_valuefrom table_a where mon.

2020-08-19 00:04:44 1204

原创 Python 关于np.nan和None的区别和导入数据库的注意事项

工作中遇到这样的场景:把数据从生产环境以csv导出来后,要手工导入测试环境的mysql数据库。直接在mysql里导数的话,如果数据量大会非常慢,而且不稳定。写一个python脚本自动导数是最方便的,但要满足几个需求:1.csv格式导出来的数据,数据库里如果是空值会变成N。但在mysql里我希望它还是空值null;2.导入mysql的数据,希望能保留两位小数。1和2要结合起来看,其实就是替换'N‘的同时做一些数据处理,需要注意的是python里数据类型的问题。思路是:1.先把N变为np.n

2020-06-07 22:17:14 3406

原创 手把手教你Mac通过brew安装chromedriver搭建selenium环境

笔者电脑是Mac系统,所以这篇博文只适用于苹果电脑的朋友哈~selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样,能打开浏览器自动化访问。第一步,下载seleniumterminal里直接pip installselenium第二步,搞个栗子看看selenium能不能用。这里以Chrome为例试试打开百度(记得电脑...

2020-01-29 15:44:43 2510 1

原创 R语言:如何生成随机聚类数据/generate random clusters;介绍R package:clusterGeneration

写在前面:因为参考文献是外文文献,虽然我已尽量照着自己的理解翻译,但有些专业词汇我也怕表述不清,不可避免的会出现很多英文术语。希望不会影响阅读,见谅!clustering:聚类方法,如K-means之类的clusters:聚类结果,k=3代表最后分成3类------------不知我这个【生成随机聚类数据】翻译是否正确,总之就是根据预设条件(如有多少个类clusters,每个clu...

2018-07-28 05:25:42 2738

原创 R语言:list的嵌套与如何提取嵌套中的值

R的数据结构有很多种,常用的包括向量vector,矩阵matrix,数组array,列表list和dataframe数据框。前三个都有其特定的性质和结构,今天要介绍的是list,它非常灵活好用~因为可以存放不同数据类型!之前做assignment的时候还没有发现list的美妙,但现在写毕业论文数据量开始变大,同时通过调用Rpackage常常产生各种数据类型,渐渐发觉list真的很好用!因为使用了f...

2018-07-23 18:51:24 16381 2

原创 MySQL交换一列中的两个值/ Swapping two values in one column

Background:老师在录入Peter和Alice的信息的时候,因为他们生日一样,不小心把f跟m搞反了!怎么样只交换那一天的性别,而不影响到别的值呢?……简而言之就是替换一列中的值,x=y,y=x。意思是这样,不过如果直接简单粗暴的x=y,y=x,最后他们都会是x id first_name last_name phone birthdate gend...

2018-07-22 01:49:30 1026

原创 MySQL查询满足条件的连续时间段

之前在网上看到一个需求:输出连续大于等于三天销售量大于100的日期当然,这种用R或者Python做可能更加直截了当……回答里没有用MySql的。因为我的数据库也在初学阶段,所以也挑战一下~作为自己的第一篇博客hhh题目不变,筛选出连续三天及以上访问量大于100的日期。为了让连续时间得到更好的体现,我稍微改了一下数据。date visits 2017-07-01 ...

2018-07-21 06:11:01 6742 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除