自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Hello world!

统计学背景，data science初学，代码渣渣

原创【社招面经】某厂数据挖掘岗位一面

开头依然自我介绍+依照项目发问。1 异常数据分析。我的简历里写到这条，他让我着重说了一下，然后我介绍了一下捕捉异常数据的方法，都是依据业务给规则来输出的异常。所以面试官问为什么选择用规则而不用异常检测的模型。这个问题问得挺好，用模型识别异常数据泛化性更强，并且随着业务的增长，阈值等也可以动态变化。但用规则的原因可以分两点：第一，规则便于业务人员理解，项目是业务主导，且项目时间较短，设置规则识别异常可能是短时间内最快且直接的途径。模型或算法的结果可能难以在短时间内超过业务规则，不过在二期可以优化；第二

2021-03-20 20:47:36 557

原创【社招面经】某大厂数据研发/数据仓库的岗位

自我介绍+介绍项目，时间大概半个多小时，主要是针对项目发问。1、流失模型，看三月份连续7天流失，要怎么计算。然后我说了一下我司流失的定义并非互联网那种流失，我们是拿单日离职人数/当日在职人数。查了下留存率核心代码，大概是两表以用户关联后，countdistinct去重，算间隔日期啥的就行。,count(distinct p1.user_id) total_cnt,count(distinct if(datediff(p2.state,p1.state) = 7, p1.user_id,.

2021-03-20 17:21:25 467

原创某大厂大数据开发工程师（偏数据仓库）社招面经

从校招之后两年多以来的第一次面试，感觉一般。记录一下。1、问项目，以及你在其中参与的角色，遇到的挑战之类的。2、继续基于项目发问，因为我之前做的都是离线数据开发，问怎样保障数据及时准确出具？3、数据仓库分层思想，可以结合自己公司数仓的情况4、有没有听过cude表（我没有……）5、事务性数据库和数据仓库在建表时遵循怎样的范式（我说了第一范式的开头，面试官说他要的不是这个…其实是问我这两类数据库的表建表规范有什么不同）6、数据倾斜的原理，表现，解决办法（解决办法我提到一个是把倾斜数据单

2021-03-11 00:38:43 1040 1

原创【案例】mysql创建索引中字段顺序的重要性（命中规则）

之前只知道索引会让查询效率变快，各种博文也只是介绍触发联合索引的条件是在where条件里使用联合索引的全部索引键，可触发索引的使用。但都没有提到在联合索引里设置的字段顺序会大大影响查询效率！！拿一个简单的查询语句举例，我们想获取表a里特定城市（e.g.深圳）一年的某个指标值：select month_code, dept_code, city_name, index_code, index_name, index_level, index_valuefrom table_a where mon.

2020-08-19 00:04:44 1259

原创 Python 关于np.nan和None的区别和导入数据库的注意事项

工作中遇到这样的场景：把数据从生产环境以csv导出来后，要手工导入测试环境的mysql数据库。直接在mysql里导数的话，如果数据量大会非常慢，而且不稳定。写一个python脚本自动导数是最方便的，但要满足几个需求：1.csv格式导出来的数据，数据库里如果是空值会变成N。但在mysql里我希望它还是空值null；2.导入mysql的数据，希望能保留两位小数。1和2要结合起来看，其实就是替换'N‘的同时做一些数据处理，需要注意的是python里数据类型的问题。思路是：1.先把N变为np.n

2020-06-07 22:17:14 3429

原创手把手教你Mac通过brew安装chromedriver搭建selenium环境

笔者电脑是Mac系统，所以这篇博文只适用于苹果电脑的朋友哈~selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样，能打开浏览器自动化访问。第一步，下载seleniumterminal里直接pip installselenium第二步，搞个栗子看看selenium能不能用。这里以Chrome为例试试打开百度（记得电脑...

2020-01-29 15:44:43 2548 1

原创 R语言：如何生成随机聚类数据/generate random clusters;介绍R package：clusterGeneration

写在前面：因为参考文献是外文文献，虽然我已尽量照着自己的理解翻译，但有些专业词汇我也怕表述不清，不可避免的会出现很多英文术语。希望不会影响阅读，见谅！clustering：聚类方法，如K-means之类的clusters：聚类结果，k=3代表最后分成3类------------不知我这个【生成随机聚类数据】翻译是否正确，总之就是根据预设条件（如有多少个类clusters，每个clu...

2018-07-28 05:25:42 2775

原创 R语言：list的嵌套与如何提取嵌套中的值

R的数据结构有很多种，常用的包括向量vector，矩阵matrix，数组array，列表list和dataframe数据框。前三个都有其特定的性质和结构，今天要介绍的是list，它非常灵活好用~因为可以存放不同数据类型！之前做assignment的时候还没有发现list的美妙，但现在写毕业论文数据量开始变大，同时通过调用Rpackage常常产生各种数据类型，渐渐发觉list真的很好用！因为使用了f...

2018-07-23 18:51:24 16433 2

原创 MySQL交换一列中的两个值/ Swapping two values in one column

Background：老师在录入Peter和Alice的信息的时候，因为他们生日一样，不小心把f跟m搞反了！怎么样只交换那一天的性别，而不影响到别的值呢？……简而言之就是替换一列中的值，x=y，y=x。意思是这样，不过如果直接简单粗暴的x=y，y=x，最后他们都会是x id first_name last_name phone birthdate gend...

2018-07-22 01:49:30 1040

原创 MySQL查询满足条件的连续时间段

之前在网上看到一个需求：输出连续大于等于三天销售量大于100的日期当然，这种用R或者Python做可能更加直截了当……回答里没有用MySql的。因为我的数据库也在初学阶段，所以也挑战一下~作为自己的第一篇博客hhh题目不变，筛选出连续三天及以上访问量大于100的日期。为了让连续时间得到更好的体现，我稍微改了一下数据。date visits 2017-07-01 ...

2018-07-21 06:11:01 6775 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

FengYuxin0706 CSDN认证博客专家 CSDN认证企业博客

码龄6年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

10: 原创

20万+: 周排名

109万+: 总排名

3万+: 访问

: 等级

384: 积分

7: 粉丝

9: 获赞

6: 评论

58: 收藏

私信

关注

热门文章

分类专栏

Python 3篇
社招面试 3篇
数据仓库 2篇
Mac 1篇
selenium 1篇
Mysql 3篇
R 2篇

最新评论

手把手教你Mac通过brew安装chromedriver搭建selenium环境
toyomiu: 好教程！捉个小虫，第一行写了个别字，是from webdriver不是werdirver。
某大厂大数据开发工程师（偏数据仓库）社招面经
就叫我浪浪吧: 其中distinct这一点其实错了并不是这样的，实际上不管是hive还是spark都对这样的语句有了优化，在Alntr对sql进行语法解析的时候就已经会对你的执行语句进行优化了，不信你可以取写个sparksql看看sql的执行计划就能发现其实没有区别的
MySQL查询满足条件的连续时间段
springdk2009: 不对吧，是日期连续
R语言：list的嵌套与如何提取嵌套中的值
iamks321: foreach
MySQL查询满足条件的连续时间段
CappuccioOS: [code=sql] -- 查询满足条件且连续出现达到三次 SELECT a.* FROM ( SELECT student.*,(DATE_FORMAT(createAt,'%d')-(@b:=@b+1))as c FROM `student`,(SELECT @b:=0)b WHERE cardId>99)a INNER JOIN ( SELECT c FROM( SELECT student.*,(DATE_FORMAT(createAt,'%d')-(@e:=@e+1))as c FROM `student`,(SELECT @e:=0)e WHERE cardId>99)a GROUP BY c HAVING COUNT(c)>2)b ON a.c=b.c 这样可否？ [/code]

最新文章

提示

确定要删除当前文章？

取消删除