数据分析
cyber_1987
专注数据的数据分析师,以Python、VBA、Power query为主
展开
-
Python:批量提取文本中的共性部分并转化为正则表达式
前言有一种竞赛需要:有5万条html文本,是由30个模板结合一个地址库结合起来的,每个模板里都有5-7个位置可以选择插入或不插入地址,地址分为6级:province(省)、city(市)、district(区)、township(镇)、street(街)、street_num(街号)。因为模板里分为right(真实的辅助地址)、wrong(错误的干扰地址)和main(street+street_num的主要地址)三种位置,所以需要对地址进行提取。常规的做法是将地址库进行全文检索,并根据某种规则判断出ri原创 2020-10-18 10:15:25 · 1173 阅读 · 1 评论 -
Pandas:关于pandas中筛选的效率测试
前言上一篇说到,最近我在做地址匹配的一个竞赛,目前陷入了瓶颈,所以想从pandas效率上玩玩。比如给出一个切分好的地址列表,如[‘福建省’, ‘厦门市’, ‘思明区’, ‘梧村街道’, ‘湖滨南路’],需要将这个地址在140+万条数据的地址库里筛选出满足条件的所有地址,应该怎么做呢?一、常规方法最常规的方法肯定是直接使用pandas里面的筛选方法,如下面代码所示可以看到用时大概在843毫秒左右这个方法的好处是书写简单,无脑&就可以了,但是如果当中某个对象可能是空的而且需要同时对很多地址原创 2020-08-09 08:55:05 · 3312 阅读 · 1 评论 -
经验分享:数据分析的五个阶段
前言数据分析,也被称为营销分析、经营分析等,就是通过一定的工具、算法,结合业务逻辑将数据背后的真正原因找出来,为企业的发展方向提供数据支撑。在这个越来越对数据重视的时代,数据分析的价值也在迅速提升。在大部分部门,尤其是前端营销部门中,数据分析工作的好坏可能会直接影响一线的业绩。所以如何做好数据分析,是每一个数据分析师需要思考的问题。笔者在10年的数据分析工作生涯中,经历了好几个阶段,也有一些思考和总结,供大家参考。原创 2020-05-29 10:40:03 · 2160 阅读 · 1 评论 -
CDA Level2建模备考心得
从9月起正式准备,到12月底完成考试,提前半年完成了自己的6月考完Level1后的诺言,而且如愿得到了A。只是这次的成绩虽有惊喜但也并不强烈,一来自己准备了这么久,有点水到渠成的感觉;另外实际参加了其它的比赛后,愈发感觉自己基础的薄弱。所以这次的备考心得,也只能说班门弄斧,大家可以参考但也要根据自己的实际情况调整。一、我的基础 2019年3月开始看吴恩达的《机器学习》视频,囫囵吞...原创 2020-01-06 21:12:28 · 6942 阅读 · 27 评论 -
CDA Level2 模拟题2 Python代码实现
前言: 模拟题2是一道2分类预测类建模,需要预测利润而不是传统的准确率或召回率等,这就代表用一个模型是没有办法获得最高分的,必须根据不同的情况进行调参。虽然没有答案,但是好在有一个类似的练习赛地址是: http://jingsai.cda.cn/info/id/6.html需要注意的是:1、练习赛的数据集小于模拟题的数据集,不要搞混了;2、练习赛的评判标准是accuracy接下去的代...原创 2019-12-25 15:58:36 · 2246 阅读 · 1 评论 -
CDA Level2 模拟题1 Python代码实现
前言: 由于是模拟题,且除了数据清洗外没有答案,所以建模部分没有做特征工程,用了最简单的随机森林的分类树且没有做交叉验证甚至没有调参,也就是说用这个代码的话顶多弄个及格分。一、数据下载:http://exam.cda.cn/static/exam_attachment/L2jmjxshiti.zip二、案例背景和要求:三、Python代码实现1、数据导入import panda...原创 2019-12-25 09:59:12 · 2115 阅读 · 10 评论 -
Python:3个常用数据检验代码实现
常规库导入import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings("ignore")pd.options.display.max_columns = None #显示所有列pd.set...原创 2019-12-24 15:47:57 · 3040 阅读 · 0 评论 -
Python:14个常用数据清洗代码
常用库导入import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings("ignore")pd.options.display.max_columns = None #显示所有列pd.set...原创 2019-12-23 15:16:51 · 13400 阅读 · 5 评论 -
CDA LEVEL2 大纲解析案例题Python实现代码
数据下载:http://exam.cda.cn/static/exam_attachment/L2jmjxshiti.zip导入库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings...原创 2019-12-16 11:04:28 · 2217 阅读 · 0 评论 -
Python:对单位内部的员工变化做了一下分析
前言:去年11月有过一次爬取单位内部通讯录,这个月又爬了一次,想看看变化,发现了很多东东(当然不可能共享啦!)也就代码共享一下import pandas as pdimport numpy as npimport matplotlib.pyplot as pltpd.options.display.max_columns = Nonecolumn_name = ['姓名', '性别...原创 2019-08-09 16:19:35 · 409 阅读 · 0 评论 -
今天不谈技术,聊聊我所认为的数据分析师发展方向
一、首先做个自我介绍以及我这一年来的经历09年毕业后一直在运营商工作,收入勉强温饱,岗位一直是数据分析。说是数据分析,其实也就是通过IT开发好的数据仓库,取数下来并做数据处理,变成日报或分析报告。在一年前,我所认识的数据分析也就是这个样了,高级点的就是用VBA或数据库把过程模板化一键操作罢了。一年前,我突然醒悟了,觉得自己可替代性太强了,而且在国企工作每日都是千篇一律学不到什么技术,所以就想自...原创 2019-07-31 20:53:08 · 1214 阅读 · 3 评论