数据分析
文章平均质量分 70
goskiller
咨询公司出身,投身互联网金融,主抓数据分析和挖掘建模,在工作和带领团队中偶有所得
展开
-
maxcompute中dataframe转换为pandas中dataframe方法
首先python加载访问maxcompute包,在这之前需要运维给你开通python访问maxcompute的白名单,否则是要被拒绝的。from odps import ODPSfrom odps.df import DataFrameimport pandas as pd然后访问你的projectproject = odps.get_project()将结果读为数据集dataframe,此处是odps数据集,跟pandas的数据集有不同,不能使用pandas里面的数据集操作,比如设定列名,求数原创 2020-05-19 15:14:06 · 2280 阅读 · 2 评论 -
论一个数据分析师的自我修养——基础篇
写下这篇文章的标题,顿时感到很惶恐,有很多数据分析大神都默默在岗位上尽职尽责,我又没有做出什么成绩,何德何能来写这篇文章?正因为没人写,所以众多数据分析师或者有志于做好数据分析的人们根本不知道数据分析为何物,究竟在实际工作中产生了什么价值,感到前途很迷茫。 而另一方面,在实际的数据分析工作中,我真实的感受到了,一个数据分析师必须具备一定的专业素养和行业知识才能在职位上发挥自己的最大价值原创 2016-08-01 00:02:11 · 1754 阅读 · 0 评论 -
用R做一个完整的数据挖掘项目
最近运营部门希望我们帮助他们找出合适的短信营销对象,通过短信营销能够提高他们的投资者再次投资转化率,那么如何找到这个精准人群就是我们部门必须出手做的事情了?但是从几百万投资者中找出最近要复投的用户,这数据挖掘工作究竟该如何入手呢?不着急,我先上结果给大家先看看。 (这是我5月9日给出的一波预测会复投的新用户ID,当日下午做营销,5月11日晚20:00的结果)(这是业务部门5月8原创 2017-05-26 13:36:37 · 9008 阅读 · 6 评论 -
使用R创建多个有重复字符的系列变量
最近一段时间需要对公司投资人群多个时间点是否流失进行预测,需要针对未来20天该用户群是否流失进行预测,于是需要至少建立20个数据集,做20个模型,进行20个预测,这要我重复写20遍代码,这种重复敲代码的感觉可不好(关键是一个模型可不是十行代码能解决问题的,有N多参数),好歹我自诩为人工智能人才,怎么能被重复性的代码难倒呢? 在网上百度了一下相关文章,发现有论坛已经解决了这个问题原创 2018-01-17 11:26:56 · 3947 阅读 · 0 评论