数据分析师
文章平均质量分 67
Just_do_it_2018
这个作者很懒,什么都没留下…
展开
-
今日头条数据分析师分享有感
写在前面:这篇文章是听了Bittiger邀请今日头条的数据分析师潘老师做的一个分享之后,与自己的思考一起形成的总结,在她的分享中主要讲了SQL的基本语法,在后面的答疑环节提到一些数据分析师相关的日常工作内容。据此,本文的outline主要分为以下几个部分:今日头条的数据分析师日常工作主要是哪些?SQL在日常工作的使用场景有哪些?日常工作对于SQL的要求是什么样的?如何有效地学习SQ...原创 2018-05-21 18:07:49 · 11757 阅读 · 0 评论 -
SQL的on及where对join过程的影响分析
Outlinejoin各类型on与where对join的过程影响总结join各类型首先,对于join的各种类型的区别,不仅是各大面试中最常见的问题,也是在实际问题场景中使用频率很高的子句。我觉得无需多言,看两张图就足够了:1、笛卡尔积(cross join,其实叫交叉积更便于自己理解) 假设集合A={a, b},集合B={0, 1, 2},则两个集合的笛卡尔积为{(a, ...原创 2018-08-07 16:38:21 · 607 阅读 · 0 评论 -
pandas读取中文文件的UnicodeDecodeError编码问题汇总
Outline批量处理文件获取文件编码不能decode bytes …python的异常处理read_csv中的error_bad_line参数小感批量处理文件为了批量处理文件,当然是想办法获取文件名,通过文件名形成文件路径从而批处理文件。 我以前绕过大弯,根据文件的命名规律,尤其是其中的数字递增规律来创建路径,自从发现os库里的listdir函数才知道自己有多蠢!...原创 2018-08-02 16:57:03 · 20745 阅读 · 0 评论 -
用户运营之push和短信
写在前面:运营是连接用户和产品的桥梁。用自己的话讲,运营的目的就是为了更多的人能持久地用自己的产品。而转化为行话就是我们需要推广拉新、活动促销、提高用户留存、提高用户活跃率、提高用户粘性、流失用户召回等等。而运营的手段也不外乎push、短信、闪屏、弹窗、播报等。今天正好看到几篇关于短信和push的好文章,趁热想从这几篇文章来梳理一下自己的感悟和总结~ 1、你真的了解push么? 2、没推送...原创 2018-08-06 17:26:45 · 4525 阅读 · 0 评论 -
SQL暑期进阶计划_4
今天是SQL第八天,专注于SQL的操作语言,主要是对数据库中数据的操作。OutlineinsertupdatedeleteNULL 零与空格的区别insertinsert是往数据库中插入数据如果要插入的数据量较小,记住insert values语句 例:insert into table_name(col1,col2,col3) values (a,b,1);...原创 2018-07-30 18:35:56 · 204 阅读 · 0 评论 -
SQL暑期进阶计划_3
今天是SQL第六、七天的内容,主要涉及到SQL中的高级查询部分:Outline多表查询子查询多表查询多表查询也叫表联合查询,主要分为内连接和外连接。进一步又可以分为: 1. inner join A inner join B 返回的是满足连接条件的A和B的记录 2. left join A left join B 返回的是A的所有记录以及B中满足连接条件的记录...原创 2018-07-30 17:19:32 · 185 阅读 · 0 评论 -
SQL暑期进阶计划_2
今天继续SQL第五天:SQL中的子句OUTLINEwherestarting withorder bygroup byhaving附加:where和having的区别where1、where使我们返回的数据更具有选择性2、where是使用频率仅次于select 和 from的语句starting with1、starting with类似于 like子...原创 2018-07-20 17:38:17 · 174 阅读 · 0 评论 -
SQL暑期进阶计划_1
今天完成《SQL21日自学通》的前四天的内容。OUTLINESQL概述select表达式、条件语句、运算函数:对数据的进一步处理SQL概述SQL:structured query language 结构化查询语言 它是连接我们和数据库的一个纽带,通过命令行的方式与数据库进行会话select1、 两个特性: - ① 对大小写不敏感,但是涉及具体数据时要注...原创 2018-07-18 16:42:42 · 197 阅读 · 0 评论 -
SQL暑期进阶计划_0
写在前面:最近借着实习的机会接触了数据部门大牛的主页,他们主页上分享了很多学习资源,而且还有很多实操的案例,借着这样的机会,正好巩固一下SQL基础,在实际场景中不断提高自己的SQL能力。OUTLINE前期学习资料总结本次进阶计划两点希望前期学习资料总结之前没接触过SQL的小白,可以先从这两个网站看看,跟着过一遍~ w3school: http://www.w3s...原创 2018-07-18 16:10:49 · 233 阅读 · 0 评论 -
python运用DBSCAN算法对坐标点进行离群点检测&dataframe的append问题
问题描述(关于dataframe的append问题,直接拖至文后)我们有n多单车,每个单车一段时间(差不多一个星期)规律返回的经纬度位置数据,类似于下图,但是有个问题是单车的这些经纬度数据的准确性只有70%左右,不准确的经纬度会出现偏差,我们要做的就是去掉那些噪音比较大的坐标点,筛选出正确位置从而进行之后的操作。 解决方案DBSCAN算法简介操作源码小收获&小总...原创 2018-07-23 18:03:18 · 9989 阅读 · 6 评论 -
pandas如何将相同ID的字符串进行合并
写在前面:说来真的很巧,先是有个人在一个qq比赛群里扔了这个问题,我觉得很有意思,然后自己尝试了下,就将自己写的一段代码发给了他。事后,在一个微信公众号的推文里,看到这篇文章数据城堡参赛代码实战篇(三)—我们来探究一个深奥的问题!里面给了一些大神对同样问题的解法,瞬间觉得自己很菜鸡,把大神的和自己做个对比,提醒自己对于pandas的使用不能仅仅停留于表面,还有更多优化简洁的处理方式需要学习!...原创 2018-05-24 15:47:34 · 29773 阅读 · 11 评论 -
python的去重以及数据合并的用法
OUTLINE:drop_dupicatesmergedrop_dupicates参数含义: subset:即表示要去重指定参考的列 keep : {‘first’, ‘last’, False}, default ‘first’ inplace:boolean, default False, 直接在原来的数据上修改还是保留副本data = pd.DataFram...原创 2018-05-24 10:00:59 · 7954 阅读 · 0 评论 -
pandas的groupby以及pivot_table用法——以计算恩格尔系数为例
数据:来源于Datacastle上的大学生资助预测竞赛中的数据,点此百度网盘获取,密码为cdtb。 注:只用到竞赛中的一卡通数据数据描述: 一共有一万多条数据,800多兆,共七个字段,分别是: 【学生ID,消费类别,消费地点,消费方式,消费时间,消费金额,剩余金额】 Task: 根据该数据,得到如下格式: solution1: groupby() data = pd.r...原创 2018-05-23 17:51:18 · 2744 阅读 · 0 评论 -
Pandas两种主要的数据结构
OUTLINESeriespandaspandas中的数据结构主要包括两种,一种是Series,一种是dataframe。 SeriesSeries表示一维数据,可以简单理解为一个向量,但是不同于向量的是,Series会自动为这一维数据创建行索引。① 创建Seriesimport pandas as pdseries_obj = pd.Series(['a'...原创 2018-05-23 16:53:43 · 8677 阅读 · 0 评论 -
SQL syntax:...MySQL server version for the right syntax to use near 'rank CHAR(1))'
SQL版本:MYSQL 8.0.11;Mac OS错误语句:CREATE TABLE grade(low TINYINT,upp TINYINT,rank CHAR(1));错误提示:You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version...原创 2018-08-08 17:37:19 · 7662 阅读 · 0 评论