sherri_du-CSDN博客

转载不均衡学习的抽样方法【原理介绍详细】

2018-09-25 14:11:16 1785

原创简单了解用户运营

看了一个数据分析网络课程介绍数据分析方法时提到了名次“CRM用户运营体系”，感觉很新奇，立马baidu一下，发现和我们的日常生活，尤其是现在互联网这么发达的时代，与每个人都有非常紧密都关联。所以简单做了一些了解总结。啥是用户运营呢？它以最大化提升用户价值为目的，通过各类运营手段提高活跃度、留存率或者付费指标。在用户运营体系中，有一个经典的框架叫做AARRR，即新增、留存、活跃、传播、盈利...

2018-09-21 14:57:11 1331

转载 A/B-test显著性检验

2018-09-20 14:41:27 1881

转载 Spyder配置---背景色、高亮文本。字体大小、图片显示等

说明入科学计算的坑，人生苦短，还是用python吧。目前比较好的环境还是Winpython，下载完成后，默认装好了三大包！numpy，pylab， scipy。当然还有pandas了。关键是，里面自带了一个Spyder的小ide，类似于matlab，内嵌ipython，交互式写代码，有工作空间，可以一览自己设置的变量都有啥！也可以写脚本，Debug等等，算是一个小的ide了。捣鼓了一下i...

2018-08-06 11:09:40 39781 1

转载数据挖掘模型中的IV和WOE详解

http://blog.csdn.net/kevin7658/article/details/507803911.IV的用途IV的全称是Information Value，中文意思是信息价值，或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选。比如我们有200个候选自变量，通常情况下，不会直接把200个变量直接放到模型中去进行拟合训练，而

2017-11-21 18:18:44 530

转载机器学习系列(12)_XGBoost参数调优完全指南（附Python代码）

机器学习系列(12)_XGBoost参数调优完全指南（附Python代码）原文链接：http://blog.csdn.net/han_xiaoyang/article/details/52665396原创 2016年09月25日 23:35:50标签：xgboost/GBDT/参数调整/机器学习/分类问题原文地址：Co

2017-11-04 17:03:28 3062

转载机器学习系列(11)_Python中Gradient Boosting Machine(GBM）调参方法详解

机器学习系列(11)_Python中Gradient Boosting Machine(GBM）调参方法详解原文链接：http://blog.csdn.net/han_xiaoyang/article/details/52663170原创 2016年09月25日 17:33:34标签：python/增强树/GBM/机器学习/调参

2017-11-04 16:44:14 690

转载『应用机器学习的建议』的学习笔记 2015/04/12 · IT技术 · 机器学习分享到： 45 本文由伯乐在线 - mathshelly 翻译，toolate 校稿。未经许可，禁止转载！英

『应用机器学习的建议』的学习笔记原文链接http://blog.jobbole.com/85680/2015/04/12 · IT技术 · 机器学习分享到：45本文由伯乐在线 - mathshelly 翻译，toolate 校稿。未经许可，禁止转载！英文出处：jmetzen.github.io。欢迎加入翻译组。这篇文章是以Bremen

2017-11-02 19:01:12 553

转载 Windows下安装python版的XGBoost（Anaconda）【成功验证，按着步骤一步一步安装能够成功】

XGBoost是近年来很受追捧的机器学习算法，由华盛顿大学的陈天奇提出，在国内外的很多大赛中取得很不错的名次，要具体了解该模型，可以移步GitHub，本文介绍其在Widows系统下基于Git的python版本的安装方法。需要用到三个软件：python软件（本文基于Anaconda，因为自带很多库，比较方便）Git for WindowsMINGW 假设都已

2017-10-31 15:26:51 861

转载巧用Superset大数据分析平台搞定各类图表

http://m.blog.csdn.net/qq273681448/article/details/75050513前言其实大数据图表展示的这类平台有很多，Superset是其中之一，最近有个需求对各类图表展示的开发较多，索性将工作量交给这个平台。介绍Superset的中文翻译是快船，而Superset其实是一个自助式数据分析工具，它的主要目标是简化我们的数据

2017-10-01 10:18:07 2194

转载 superset 开源数据可视化工具（For Apache Kylin）使用说明

开源数据可视化工具（For Apache Kylin）使用说明http://lxw1234.com/archives/2016/06/[email protected] 1年前 (2016-06-20) 24693℃46评论Apache Kylin，很好的解决了海量数据OLAP的底层存储与分析引擎，但还缺一个数据可视化工具，可以使用户非常方便的

2017-09-26 14:42:26 5228

转载学习pandas下的dataframe画图参数

[python] view plain copy 学习pandas数据框的绘图，轻松搞定各种图画法。DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None,figsize=None, u

2017-06-19 15:48:38 10988

转载 Mongodb数据导出工具mongoexport和导入工具mongoimport介绍

一、导出工具mongoexportMongodb中的mongoexport工具可以把一个collection导出成JSON格式或CSV格式的文件。可以通过参数指定导出的数据项，也可以根据指定的条件导出数据。mongoexport具体用法如下所示：Shell代码 [root@localhost mongodb]# ./bin/mongoexport --help

2017-04-21 10:43:08 591

转载用 Python 做数据处理必看：12 个使效率倍增的 Pandas 技巧（上下）

http://datartisan.com/article/detail/81.html导语Python正迅速成为数据科学家偏爱的语言，这合情合理。它拥有作为一种编程语言广阔的生态环境以及众多优秀的科学计算库。如果你刚开始学习Python，可以先了解一下Python的学习路线。在众多的科学计算库中，我认为Pandas对数据科学运算最有用。Pandas，加上Scikit-lear

2017-04-06 17:08:26 11644

转载 scikit-learn学习之SVM算法

scikit-learn学习之SVM算法http://www.w2bc.com/article/131097来源：Gamer_gyt 阅读：270 时间：2016-05-04 22:18分享：0======================================================================本系列博客主要

2017-03-11 18:42:42 656

转载 Logistic Regression分类器原理

Logistic Regression分类器http://www.cnblogs.com/guyj/p/3800519.html1. 两类Logistic回归Logistic回归是一种非常高效的分类器。它不仅可以预测样本的类别，还可以计算出分类的概率信息。不妨设有n个训练样本{x1,...,xn}，xi是d维向量，其类别标签是{y1,...,yn}。对于一个c类问题

2017-03-05 16:35:31 786

转载逻辑斯蒂回归（LogisticRegression）sklearn的一个例子中文解释

http://www.2cto.com/net/201607/522311.htmlhttp://scikit-learn.org/stable/auto_examples/linear_model/plot_logistic_l1_l2_sparsity.html#sphx-glr-auto-examples-linear-model-plot-logistic-l1-l2-sparsi

2017-03-04 14:00:42 7135

转载用python做数据分析4|pandas库介绍之DataFrame基本操作

怎样删除list中空字符？最简单的方法：new_list = [ x for x in li if x != '' ]今天是5.1号。这一部分主要学习pandas中基于前面两种数据结构的基本操作。设有DataFrame结果的数据a如下所示： a b cone 4 1 1two 6 2 0three 6 1 6一、

2017-01-12 10:39:55 2483

转载 MongoDB远程访问配置步骤详解

http://www.07net01.com/2016/11/1722629.htm本文介绍的内容是关于MongoDB远程访问配置，下面话不多说，直接来看看详细的步骤。1、首先修改mongodb的配置文件让其监听所有外网ip编辑文件： /etc/mongodb.conf修改后的内容如下： bind_ip = 0.0.0.0 port = 27017 auth=t

2016-12-19 12:08:43 8773

转载 MongoDb 命令查询所有数据库列表

[sql] view plain copy MongoDb 命令查询所有数据库列表 CODE: > show dbs 如果想查看当前连接在哪个数据库下面，可以直接输入db CODE: > db Admin 想切换到test数据库下面 CODE: > use test switched to db test > db Test

2016-12-14 11:09:56 1294

原创 mongodb安装

MongoDB 下载（下载msi，可以直接点击安装）MongoDB提供了可用于32位和64位系统的预编译二进制包，你可以从MongoDB官网下载安装，MongoDB预编译二进制包下载地址：http://www.mongodb.org/downloads注意：在 MongoDB2.2 版本后已经不再支持 Windows XP 系统。MongoDB for Wind

2016-12-09 12:08:26 577

转载 hive OVER(PARTITION BY)函数用法

OVER(PARTITION BY)函数用法 2010年10月26日OVER(PARTITION BY)函数介绍开窗函数 Oracle从8.1.6开始提供分析函数，分析函数用于计算基于组的某种聚合值，它和聚合函数的不同之处是：对于每个组返回多行，而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小，这个数据

2016-11-23 21:19:50 76903 4

转载 word2vec学习笔记[转]

谷歌已经使用Deep Learning技术开发了许多新方法来解析语言，目前，谷歌开源了一款基于Deep Learning的学习工具——word2vec，这是首款面向大众的Deep Learning学习工具。word2vec（word to vector）顾名思义，这是一个将单词转换成向量形式的工具。通过转换，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示

2016-10-14 22:09:10 443

转载 Hive UDF整理

Hive UDF整理字符串函数字符串长度函数：length 语法: length(string A)返回值: int 说明：返回字符串A的长度举例： hive> select length(‘abcedfg’) from dual; 7 字符串反转函数：reverse 语法: reve

2016-09-20 11:27:50 581

转载 hive支持sql大全（收藏版）

最新热门最新回复最新发表面试题项目区hadoop资源openstack资源新手指导环境搭建休闲阅读目hadoop疑问openstack疑问移动云百度云微软云 storm区CDH区hbase区pig区hive区sqoop区

2016-09-14 13:56:04 1186

转载 hive lateral view 与 explode详解

1.explodehive wiki对于expolde的解释如下：explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expression list an

2016-09-14 09:52:17 10141 2

转载 python中的数据结构

http://blog.csdn.net/u011608357/article/details/261433391.列表(1) 建立列表list(‘python’)['p', 'y', 't', 'h', 'o', 'n'](2)列表的常用方法：append 在列表末尾添加元素>>>l=[‘a’,’b’,’c’]>>>l.append(‘d’)

2016-08-28 19:25:54 465

转载 python实现的链表

http://blog.csdn.net/u011608357/article/details/28997089python实现的链表，包括插入、查找、删除操作[python] view plain copy #!/usr/bin/python class linknode(): def __init__(self,k,n=None):

2016-08-28 19:24:06 537

转载不相交集python实现

http://blog.csdn.net/u011608357/article/details/379661991.不相交集是解决等价关系的一种数据结构，执行合并和查找的速度都非常快，M次运行合并和查找的运行时间为（M*logN）。在一个集合中，对于每一对元素(a,b)，a,b∈S，对于关系R如果满足下面三个条件，则成关系R为等价关系：(1)自反性对于所

2016-08-28 19:22:30 486

转载计数排序、桶排序python实现

http://blog.csdn.net/u011608357/article/details/37725455计数排序在输入n个0到k之间的整数时，时间复杂度最好情况下为O(n+k),最坏情况下为O(n+k),平均情况为O(n+k),空间复杂度为O(n+k)，计数排序是稳定的排序。桶排序在输入N个数据有M个桶时，如果每个桶的数据接近N/M个且桶内使用基于比较的排序，则

2016-08-28 19:18:52 436

转载快速排序，归并排序，堆排序python实现

http://blog.csdn.net/u011608357/article/details/37724329快速排序的时间复杂度最好情况下为O(n*logn),最坏情况下为O(n^2),平均情况下为O(n*logn),是不稳定的排序归并排序的时间复杂度最好情况下为O(n*logn),最坏情况下为O(n*logn),平均情况下为O(n*logn),是稳定的排序堆排序的时间

2016-08-28 19:17:25 484

转载单链表反转python实现

http://blog.csdn.net/u011608357/article/details/36933337单链表的反转可以使用循环，也可以使用递归的方式1.循环反转单链表循环的方法中，使用pre指向前一个结点，cur指向当前结点，每次把cur->next指向pre即可。代码：[python] view

2016-08-28 19:16:00 6442

转载选择排序、插入排序、冒泡排序python实现

选择排序的时间复杂度为O(n^2),是不稳定的排序冒泡排序的时间复杂度最好情况下为O(n),最坏情况下为O(n^2),平均情况下为O(n^2),是稳定的排序插入排序的时间复杂度最好情况下为O(n),最坏情况下为O(n^2),,平均情况下为O(n^2),是稳定的排序1.选择排序[python] view plain copy def selection(l

2016-08-28 18:25:40 2550

转载机器学习-Python中训练模型的保存和再使用

在做模型训练的时候，尤其是在训练集上做交叉验证，通常想要将模型保存下来，然后放到独立的测试集上测试，下面介绍的是python中训练模型的保存和再使用。scikit-learn已经有了模型持久化的操作，导入joblib即可from sklearn.externals import joblib模型保存>>> os.chdir("workspace/model_save")>>>f

2016-08-13 10:52:49 19547 3

转载 Python机器学习库scikit-learn实践多个机器学习算法同时比较精度 ~\(≧▽≦)/~

http://blog.csdn.net/zouxy09/article/details/48903179Python机器学习库scikit-learn实践[email protected]://blog.csdn.net/zouxy09 一、概述机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”，就算不懂得其中各算法理论，叫你喊上一两

2016-08-08 14:11:40 5012 1

转载 scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法 [转自别的作者，还有其他sklearn翻译]

http://blog.csdn.net/gamer_gyt/article/details/51244850======================================================================本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行，并进行部分翻译，如有错误，请大家指正转

2016-08-06 09:36:55 2999

转载 scikit-learn主要模块和基本使用方法

http://www.cnblogs.com/CheeseZH/p/5250997.html从网上看到一篇总结的很不错的sklearn使用文档，备份勿忘。引言对于一些开始搞机器学习算法有害怕下手的小朋友，该如何快速入门，这让人挺挣扎的。在从事数据科学的人中，最常用的工具就是R和Python了，每个工具都有其利弊，但是Python在各方面都相对胜出一些，这是因为sciki

2016-08-03 22:17:34 484

转载应用scikit-learn做文本分类提feature tfidg共享词库分类聚类

http://blog.csdn.net/abcjennifer/article/details/23615947/文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢！嗯，说正文。20newsg

2016-08-03 20:05:10 1185

转载用Python开始机器学习（5：文本特征抽取与向量化） sklearn

http://blog.csdn.net/lsldd/article/details/41520953假设我们刚看完诺兰的大片《星际穿越》，设想如何让机器来自动分析各位观众对电影的评价到底是“赞”（positive）还是“踩”（negative）呢？这类问题就属于情感分析问题。这类问题处理的第一步，就是将文本转换为特征。因此，这章我们只学习第一步，如何从文本中抽取特征，并将其向量化

2016-08-03 19:26:01 3801

转载用Python开始机器学习（4：KNN分类算法） sklearn做KNN算法 python

1、KNN分类算法KNN分类算法（K-Nearest-Neighbors Classification），又叫K近邻算法，是一个概念极其简单，而分类效果又很优秀的分类算法。他的核心思想就是，要确定测试样本属于哪一类，就寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后看这K个样本大部分属于哪一类，那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的K个样本来投票决定。这

2016-08-03 18:19:25 5470 2

空空如也

空空如也