![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
goskiller
咨询公司出身,投身互联网金融,主抓数据分析和挖掘建模,在工作和带领团队中偶有所得
展开
-
maxcompute中dataframe转换为pandas中dataframe方法
首先python加载访问maxcompute包,在这之前需要运维给你开通python访问maxcompute的白名单,否则是要被拒绝的。from odps import ODPSfrom odps.df import DataFrameimport pandas as pd然后访问你的projectproject = odps.get_project()将结果读为数据集dataframe,此处是odps数据集,跟pandas的数据集有不同,不能使用pandas里面的数据集操作,比如设定列名,求数原创 2020-05-19 15:14:06 · 2184 阅读 · 2 评论 -
用R做一个完整的数据挖掘项目
最近运营部门希望我们帮助他们找出合适的短信营销对象,通过短信营销能够提高他们的投资者再次投资转化率,那么如何找到这个精准人群就是我们部门必须出手做的事情了?但是从几百万投资者中找出最近要复投的用户,这数据挖掘工作究竟该如何入手呢?不着急,我先上结果给大家先看看。 (这是我5月9日给出的一波预测会复投的新用户ID,当日下午做营销,5月11日晚20:00的结果)(这是业务部门5月8原创 2017-05-26 13:36:37 · 8958 阅读 · 6 评论 -
使用python做简单的中文自然语言处理
最近在学习NLP(自然语言处理),于是先看了看都有神马包可以使用,查了一遍网上说是NLTK包,下载了然后才想到我是要学中文的自然语言处理,于是就想看看专门处理中文的包有哪些。 又是一番搜索,我找到了网络大神们目前比较推崇的结巴分词(jieba),下载下来试了一下,感觉分词功能不错,于是写篇文章记录一下。 我用的是centos7的虚拟机,已经安装了anaconda原创 2017-12-20 18:17:04 · 25594 阅读 · 1 评论 -
python使用selenium自动访问网站运行hivesql并取数(版本一)
最近接了一个日报的自动化项目,主要是需要我们自动访问数据库,运行查询语句取数,并根据下载结果生成昨日日报,最终发送给领导们昨日一些主要数据指标。 需求方给了我们日报模板和hivesql代码,我们就吭哧吭哧的准备开干,怎么办呢?我之前曾经就自动爬取过知乎的问答列表及单个问答页面数据,用的就是selenium自动化测试模拟鼠标操作网页,也没啥问题(主要是我们的hive服务器为了防...原创 2018-02-09 15:49:19 · 780 阅读 · 0 评论 -
python发送含有多个变量的网页正文邮件
接上文,我们在接到自动化需求后,需要把hivesql语句跑出,然后把结果下载下来做成日报并发送给领导,这里就有领导们要求的格式,我们需要用网页语言模仿表格格式,将每日报表呈现出来。 因为上次是直接导出到csv格式,所以需要使用pandas包读取csv文件,另外如果要使用python发送邮件,还需要加载email、smtplib包,所有这些都准备完毕了之后,正文中还需要对日期进行对比处...原创 2018-03-13 16:33:24 · 1982 阅读 · 2 评论 -
python简单获取两个日期之间的年度、月度、天数差的方法
最近因为要做一些简单的结算工作,里面有一些规则需要对年度、月份、天数进行比较,在网上查了半天,忽然发现python进行年度、月份、日期处理这么难?!居然只是要计算两个时间之间的月份差,还要数十行代码! 有点不敢相信,所以自己写了一个日期和月份差的函数,现推荐给大家(通过datetime包实现):import datetimedef days(str1,str2): date1...原创 2018-05-31 10:04:50 · 26600 阅读 · 0 评论