goskiller-CSDN博客

原创 maxcompute中dataframe转换为pandas中dataframe方法

首先python加载访问maxcompute包，在这之前需要运维给你开通python访问maxcompute的白名单，否则是要被拒绝的。from odps import ODPSfrom odps.df import DataFrameimport pandas as pd然后访问你的projectproject = odps.get_project()将结果读为数据集dataframe，此处是odps数据集，跟pandas的数据集有不同，不能使用pandas里面的数据集操作，比如设定列名，求数

2020-05-19 15:14:06 2411 2

原创 Xshell6 中文版下载(免密匙)及SSH配置

免费百度云下载:https://pan.baidu.com/s/1zkEGIYj6UTvJ8ZYXMJXYRQssh配置需要配置两个页面：1、配置连接属性：需要配置的是名称、协议、主机IP、端口号 2、配置用户身份验证属性：需要配置方法、用户名、密码，并且导入正确的用户密钥最终显示登录成功...

2018-11-14 11:55:04 3382

原创关于weget “无法建立SSL连接”的解决方法

昨天在centos下安装了R之后，想安装一个Rstudio方便写代码，结果使用wget下载的时候，使用的如下命令： wget https://download1.rstudio.org/rstudio-1.1.456-x86_64.rpm 结果出现的如下执行信息--2018-08-19 21:42:54-- https://download1.rstudio.org/r...

2018-08-19 22:04:18 29356 15

原创 python简单获取两个日期之间的年度、月度、天数差的方法

最近因为要做一些简单的结算工作，里面有一些规则需要对年度、月份、天数进行比较，在网上查了半天，忽然发现python进行年度、月份、日期处理这么难？！居然只是要计算两个时间之间的月份差，还要数十行代码！有点不敢相信，所以自己写了一个日期和月份差的函数，现推荐给大家（通过datetime包实现）：import datetimedef days(str1,str2): date1...

2018-05-31 10:04:50 26732

原创爬取微博评论并提取主要关键词（二）

在实现了微博评论爬取之后，可以对微博评论提取关键词了。具体思路是找自然语言处理包，在网上查了半天，中文包目前就看到推荐的snownlp以及jieba。看了一下它们各自的案例介绍，感觉snownlp里面的功能还是没有jieba里面的丰富，特别是不知道snownlp如何自定义分词，而jieba可以比较简单的添加自定义分词以及词性，于是就选了jieba包。首先我就针对其中一条微博...

2018-05-21 16:50:12 4213 1

原创爬取微博评论并提取主要关键词（一）

接到一个自然语言处理的任务，主要是爬取医疗行业微博评论并提取关键词，顺便分类。最终是要对这些评论进行自动回复，给我的不过是初级任务，那么我就拆解任务目标，一步一步来实现。一、首先实现的是爬虫，实际上微博自己有提供api接口供我们查询，我们只需要找到合适的医疗微博id，并找到该id下评论数较多的微博即可。在手机或者电脑端，登录微博，搜索‘医生’，排在前五的是新浪爱问医生，...

2018-05-14 11:31:26 14668

原创 python发送含有多个变量的网页正文邮件

接上文，我们在接到自动化需求后，需要把hivesql语句跑出，然后把结果下载下来做成日报并发送给领导，这里就有领导们要求的格式，我们需要用网页语言模仿表格格式，将每日报表呈现出来。因为上次是直接导出到csv格式，所以需要使用pandas包读取csv文件，另外如果要使用python发送邮件，还需要加载email、smtplib包，所有这些都准备完毕了之后，正文中还需要对日期进行对比处...

2018-03-13 16:33:24 2069 2

原创 python使用selenium自动访问网站运行hivesql并取数（版本一）

最近接了一个日报的自动化项目，主要是需要我们自动访问数据库，运行查询语句取数，并根据下载结果生成昨日日报，最终发送给领导们昨日一些主要数据指标。需求方给了我们日报模板和hivesql代码，我们就吭哧吭哧的准备开干，怎么办呢？我之前曾经就自动爬取过知乎的问答列表及单个问答页面数据，用的就是selenium自动化测试模拟鼠标操作网页，也没啥问题（主要是我们的hive服务器为了防...

2018-02-09 15:49:19 825

原创使用R创建多个有重复字符的系列变量

最近一段时间需要对公司投资人群多个时间点是否流失进行预测，需要针对未来20天该用户群是否流失进行预测，于是需要至少建立20个数据集，做20个模型，进行20个预测，这要我重复写20遍代码，这种重复敲代码的感觉可不好（关键是一个模型可不是十行代码能解决问题的，有N多参数），好歹我自诩为人工智能人才，怎么能被重复性的代码难倒呢？在网上百度了一下相关文章，发现有论坛已经解决了这个问题

2018-01-17 11:26:56 4001

原创虚拟机系统下安装centos7及桌面系统

最近想学习python的自然语言处理，并且向在linux系统下尝试下是否相比windows系统下运行更有效率，于是就开始尝试安装linux系统。在尝试了多次双系统安装后，最终还是选择了虚拟机安装，一顿操作之后居然不能联网，果断重新操作，几次之后终于发现了问题——网络配置没有随着系统启动自动打开。在有了网络之后发觉还是图形界面操作方便，果断又去安装图形界面，感觉安装linux系统都已

2017-12-24 13:48:53 5816

原创使用python做简单的中文自然语言处理

最近在学习NLP（自然语言处理），于是先看了看都有神马包可以使用，查了一遍网上说是NLTK包，下载了然后才想到我是要学中文的自然语言处理，于是就想看看专门处理中文的包有哪些。又是一番搜索，我找到了网络大神们目前比较推崇的结巴分词（jieba），下载下来试了一下，感觉分词功能不错，于是写篇文章记录一下。我用的是centos7的虚拟机，已经安装了anaconda

2017-12-20 18:17:04 25739 1

原创如何用R连接mysql数据库

在百度上找了一下，大概有两种连接方法（RMySQL和sqldf），目前两种都试了一下，其中一种可以（RMySQL），另外一种暂时没有找到方法（sqldf），可以了我再奉上。首先我们要下载RMySQL和DBI包，这个在网络上都可以找到，前段时间升级Rstudio后，还出现了连接不上清华的R镜像站问题，以及下载包默认使用国外站的问题，此处一并说明一下。

2017-11-13 13:37:38 682

原创如何用R发送简单易懂的邮件

这些天在通过预测模型跑出了不少天的数据，但是跑出来的数据如何汇报给领导呢，当然是通过邮件了，我这个人比较懒，当然不想自己每天都做这个事情了，不如写几段代码解决这个事情吧？好，就这样定下来了。那么用R怎么解决这个难题？我赶紧搜索了一下，发觉有两个包可以帮助我解决这个问题，我选择了其中一个字符比较短的mailR包（人比较懒，下载包的时候可以少敲键盘），开始了研究。

2017-10-24 17:46:27 2605

原创使用R的prophet包做一个简单的时序预测

上一篇博客针对prophet包上传了自己的代码，今天这篇博客我跟大家讲述一下prophet包工作原理，以及我对该模型做的一些优化。上次使用prophet包做项目主要分为了四个部分，分别是读取数据，设定节假日（奇异点），训练模型，输出自定义结果这四部分，现在我就上个项目做分别讲解。一、初始化：装载模型包并读取数据 library(prophet

2017-10-23 13:48:31 1107

原创用R中prophet包做时序预测

最近又接到一个预测项目需求，主要是预测每天投资用户会投资不同产品多少金额，属于每天即时预测，需要拿最近一年的数据做测试集，来预测每天不同期限产品分别被投资多少金额，然后通过这些金额每天找借款端匹配借款需求，借款端运营通过资金端需求来动态调整营销活动，通过资金需求多少来有效运营借款需求，形成与资金端的良性互动，节约闲置资金成本。就这样一个需求，如何实现？我首先想到通过业务经验

2017-09-20 13:37:23 2099

原创用R做一个完整的数据挖掘项目

最近运营部门希望我们帮助他们找出合适的短信营销对象，通过短信营销能够提高他们的投资者再次投资转化率，那么如何找到这个精准人群就是我们部门必须出手做的事情了？但是从几百万投资者中找出最近要复投的用户，这数据挖掘工作究竟该如何入手呢？不着急，我先上结果给大家先看看。 (这是我5月9日给出的一波预测会复投的新用户ID，当日下午做营销，5月11日晚20：00的结果)(这是业务部门5月8

2017-05-26 13:36:37 9073 6

原创在WIN10下使用anaconda2安装xgboost

最近希望使用xgboost在公司内部做一个优化模型，之前一直用R做xgboost参数测试（跑一个参数要用5-6个小时），现在想用python跑一下模型（也希望跑快一点），顺便加上一些机器学习的思路来优化参数，在上一家公司曾经也试图安装过，鼓捣了一天不过失败了，这次我毅然继续跳坑…… 废话少说，这里我重申一下我的所有工具，如果有跟我一样想在win10下面跑xgboost模型的，可以看过来：

2017-02-06 15:54:34 591

原创用R语言实现简单的Kmeans聚类

最近主要在做针对投资者的统计及聚类分析，希望能找出投资者的一些特征，方便做投资者的精准营销。首先使用的是SPSS的modeler，毕竟操作可视化，比较简单，就是运行大量数据比较慢，挺费时间。后来又想用R验证一下聚类的准确性，直接登陆Rstudio，找了kmeans的包，也计算了，发现了SPSS聚类除了没有R计算的效率快，分类也没有R精准，彻底断了我继续使用SPSS的想法，现将R聚类分析过程

2016-09-30 16:24:05 11375

原创用R语言呈现人拉人模式的关系网数据

最近公司正在做一个基于熟人关系网络的投顾系统，数据库里面有一个基础的拉人注册表，描述了注册者和他的上级的从属关系，是一级关系。但是公司基于业务需要，需要对每一个人的上下线关系进行梳理这样就必须要有一个表，我的第一反应是这个表太简单了，不就是上下级关系吗？结果，我被打脸了，实际情况没那么简单，因为邀请表里面是一张表，包含了所有的邀请关系，如果邀请级别有20级，数量有十万，那跑一次循环就是十万的平

2016-09-10 18:52:47 1187

原创基于pearson（皮尔逊）相似度的用户推荐算法

最近因为写一些数据分析报告，把写博客的进度耽误了一点，不过不要紧，我最近优化了一下做出的推荐算法，用pearson相似度替换了欧氏距离相似度，优化了推荐算法代码，另外将700多个用户的推荐投资品循环计算了。先说一下pearson相似度：pearson相似度与欧式距离相似度的最大区别在于它比欧式距离更重视数据集的整体性；因为pearson相似度计算的是相对距离，欧式距离计算的是绝对距

2016-08-11 11:04:48 20419 4

原创论一个数据分析师的自我修养——基础篇

写下这篇文章的标题，顿时感到很惶恐，有很多数据分析大神都默默在岗位上尽职尽责，我又没有做出什么成绩，何德何能来写这篇文章？正因为没人写，所以众多数据分析师或者有志于做好数据分析的人们根本不知道数据分析为何物，究竟在实际工作中产生了什么价值，感到前途很迷茫。而另一方面，在实际的数据分析工作中，我真实的感受到了，一个数据分析师必须具备一定的专业素养和行业知识才能在职位上发挥自己的最大价值

2016-08-01 00:02:11 1810

原创 R语言函数报错继续执行方法

在上一篇文章中，我们使用了基于Usercf的推荐方法帮助互联网金融企业针对他们的投资者做投资品推荐，在文章末尾我提出了几点问题。今天我把这些问题的细节做了一些改善，重新做了模型，发觉模型结果比我预想中的要棒！！主要修改如下：1、将邻居矩阵从2维扩充为35维；（据我测算，一般为整个数据集中用户数的5%最佳，50维出现了一些空值）2、将欧氏距离上限标准化去掉，这样能更有效的

2016-07-22 21:00:49 9662

原创 R语言使用协同过滤算法（usercf）解决投资推荐问题

针对投资者智能推荐金融产品是不是一个好主意？实际上许多互联网金融公司已经开始了这方面的尝试，陆金所的用户中心界面下方的‘为您推荐’栏目就是这方面的尝试，具体如下图：这个就是典型的基于用户相似度做智能推荐的产品，现在我们就来揭开一种基于用户相似度做推荐算法的神秘面纱吧！！本博客主要参考文献张丹在这篇博客http://blog.fens.me/r-mahout-user

2016-07-21 19:03:03 4952 1

原创 R语言关于时间格式转化为数值的解决方案

好了，在前一篇文章中，我们将数据集转化为numeric格式，以便于在实际工作中预测投资者是否再次投资。不过上次的数据集转化，将时间格式全部转化为了NA，导致预测准确率下降了约5%（因为失去了时间早晚这个维度），我们今天就来讲一下如何将数据集中的时间变量转化为numeric格式。首先我们先回忆一下将时间变量转化为numeric格式的难点：因为读入数据集的时候，所有数据都是以fac

2016-07-19 14:15:36 31832 2

原创关于R语言字符型数据清洗问题

最近做一个预测关于投资者是否再次投资的项目，需要针对客户导出的数据进行清洗后建模分析，我目前选择的模型是xgboost，貌似数据必须全是numeric。数据结构如下：在这个里面，我们需要做的是将第一列里面的‘是’替换为1，第四列、第七列、第八列的字符也替换为数字。具体需求如下：平台标签替换：0、NA；1、PC；2、WAP；3、IOS；4、andriod；

2016-07-16 17:28:36 1892 1

数据挖掘分析工程师孙璇