LiuQQu-CSDN博客

原创机器学习资料整理

线性回归、岭回归和Lasso回归：https://blog.csdn.net/hzw19920329/article/details/77200475梯度下降方法和正规方程方法详解：https://blog.csdn.net/qq_23371241/article/details/78373888正规方正方法推导过程：https://blog.csdn.net/weixin_3944957...

2019-01-14 16:55:47 323

翻译统计学习: scikit-learn中的设置和估计器对象

数据集Scikit-learn可以从一个或者多个数据集中学习信息，这些数据集合可表示为2维阵列。它们可被理解成多维观测值的一个列表。这些数组的第一个维度代表样本，第二个维度代表特征（每一行代表一个样本，每一列代表一种特征）。样例: iris 数据集（鸢尾花卉数据集）>>> from sklearn import datasets>>> ...

2019-01-11 17:14:44 299

翻译使用scikit-learn进行机器学习简介

在本节中，我们介绍一些在使用 scikit-learn 过程中用到的机器学习词汇，并且给出一些例子阐释它们。机器学习：问题设置一般来说，一个学习问题通常会考虑一系列 n 个样本数据，然后尝试预测未知数据的属性。如果每个样本是多个属性的数据（比如说是一个多维记录），就说它有许多“属性”，或称 features(特征) 。我们可以将学习问题分为几大类:监督学习 , 其中数...

2019-01-11 15:22:11 242

原创增长黑客读书笔记（九）良性循环：维持并加速增长

1、避免增长停滞增长放缓常常毫无预兆地发生，而且，无论是已经站稳脚跟的大品牌还是一度增长迅猛的创业公司否有可能经历增长停滞。它极难预测，而且往往发生在强劲的增长之后。通常这些停滞并不是由刚进入市场的大单竞争者或具有破坏性的创新导致的。真正的原因是公司长时间疏于监测用户满意度，也没有积极地去发现用户不满的早期迹象。通常，用户忠诚度下降已经持续好几年，但公司却浑然不觉，等到发现的时候已经太晚。...

2019-01-10 17:00:44 623

原创增长黑客读书笔记（八）变现：提高每位用户带来的收益

获取、激活和留存客户的终极目标当然是从他们身上获取收益，并且逐渐提高每位用户带来的收益，也就是提高用户的终身价值。1、绘制变现漏斗破解变现的第一步是分析数据，找出最具潜力的试验。首先，增长团队要回到根据整个用户旅程绘制的基本路线图。变现阶段团队要做到的是在路线图上标出从获客到留存的整个过程中所有可能从用户身上盈利的机会。同时，还要找出用户旅程中阻碍创收的所有环节。零售公司的用户路线图常常...

2019-01-10 16:58:26 832

原创增长黑客读书笔记（七）留存：唤醒并留住用户

研究表明，用户留存率每提高5个百分点，利润就会提高25~95个百分点。反过来说，用户流失将会带来巨大的损失。原因之一是获取新用户的成本太高。而且现在争夺优质在线平台的竞争越来越激烈，这导致广告成本不断飙升。1、留存的复合价值留住用户的时间越长，从他们身上获得更多收益的机会就越大。因为你既可以通过出售更多商品或服务来盈利，也可以通过持续的用户续订来盈利，还可以靠增加广告收入来盈利，因为你的庞...

2019-01-10 16:30:34 824

转载 linux top命令详解与输出结果说明

转自：https://www.jb51.net/article/135852.htmtop命令是Linux下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，常用于服务端性能分析。top命令说明[www.jb51.net@jb51 ~]$ toptop - 16:07:37 up 241 days, 20:11, 1 user, load average: 0.96, ...

2018-12-27 15:04:46 249

原创增长黑客读书笔记（六）激活：让潜在用户真正使用你的产品

提高激活率的核心在于让新用户更快地体验到“啊哈时刻”。感受到产品不可或缺的人越多，忠于产品的用户就越多。要提高激活率并没有一个现成的公式可以套用，产品不同具体的做法也不同，而且试验想法应该来源于对具体数据的分析。1、绘制通往“啊哈时刻”的路线图破解激活的第一步是找出通往“啊哈时刻”的所有节点。在增长黑客法中永远不要想当然地揣测用户行为背后的原因。你应该仔细研究用户行为数据，基于你的观察对...

2018-12-20 18:29:59 924

原创增长黑客读书笔记（五）获客：优化成本，扩大规模

对任何一家公司来说获取新用户都极为重要。但是，如果获取用户的成本超过了用户所能带来的收益，那就有问题了。尽可能提高获客的成本效益率永远是王道。扩大获客规模，首先要试验另外两种匹配：（1）语言——市场匹配，也就是你对产品优势的描述打动目标用户的程度（2）渠道——产品匹配，即你所选择的营销渠道在向目标用户推荐产品时的有效程度。1、设计打动人心的广告语语言——市场匹配用来衡量描述和推荐产品的...

2018-12-20 14:11:57 888

原创增长黑客读书笔记（四）快节奏试验

通过快速学习学到更多也是快节奏增长黑客过程的目标和一大优点。增长黑客的巨大成功往往来自一连串小成功的累加。小成功的威力：每个月5%的转化率改进会带来全年80%的提升，这就是成功自然累加的特点。1、缓慢起步，逐渐提速一开始就试图启动太多试验可能会导致试验执行欠佳，使团队成员感到困惑，或因为试验结果不理想而使士气受挫。开展漫无目的或设计不当的试验可能得不偿失。2、增长黑客循环这一过...

2018-12-20 14:05:58 697

原创增长黑客读书笔记（三）确定增长杠杆

在适当的时间选择适当的增长杠杆。1、明确增长战略创造并使更多用户体验到“啊哈时刻”是破解增长难题的第一步。下一步是明确你的增长战略。必须知道你将如何驱动增长————你的增长杠杆是什么以及他们是否能够帮助你取得理想的结果。在增长初期，必须设定一个十分严密的试验流程，专注于对实现目标来说最为重要的杠杆。增长黑客并不是要以最快的速度随意尝试各种想法，看哪个能奏效，而是通过快速的试验寻找并优化最...

2018-12-20 11:36:58 691

原创增长黑客读书笔记（二）好产品是增长的根本

创造一个不可或缺的产品是公司实现迅速、持续增长的基本条件。增长黑客的基本原则之一就是在确定你的产品是否不可或缺、为何不可或缺以及对谁来说不可或缺之前不要进入快节奏试验阶段，也就是说，你必须要了解你的产品的核心价值是什么、对哪些客户来说具备这些核心价值以及为什么。1、不宜过早开展增长攻势有时候你能够取得暂时的病毒性增长，但是如果想要维持长期的用户增长，首先必须有个好产品。我们认识到，我们必...

2018-12-19 18:28:55 676

原创增长黑客读书笔记（一）搭建增长团队

增长黑客方法论：设立一个跨职能团队或几个团队，打破营销和产品开发部门之间传统的筒仓，凝聚公司人才。进行定性研究和定量数据分析，深入了解用户行为与喜好。迅速产生新思路并进行测试，根据严格的指标对实验结果进行评估并采取相应行动。增长黑客并不仅仅涉及如何获取新客户，而且还包括如何吸引、激活用户并使用户产生依赖，如何灵活的适应客户不断变化的需求和喜好，使他们不仅成为我们不断扩大的收入来源，也成为...

2018-12-19 18:07:56 850

转载 Python连续赋值需要注意的地方

在python中是可以使用连续赋值的方式来一次为多个变量进行赋值的，比如：a = b = c = 1a, b, c = 1, 1, 1这些都可以完成变量的赋值，但是就有一个问题了，比如：a = 3a, b = 1, a如果按照正常的思维逻辑，先进行a = 1，在进行b = a，最后b应该等于1，但是这里b应该等于3，因为在连续赋值语句中等式右边其实都是局部变量，而不是真正的...

2018-12-03 17:17:43 735

原创数据结构与算法之美课程笔记六链表（下）如何轻松写出正确的链表代码？

技巧一：理解指针或引用的含义将某个变量赋值给指针，实际上就是将这个变量的地址赋值给指针，或者反过来说，指针中存储了这个变量的内存指针，指向了这个变量，通过指针就能找到这个变量。p->next = q, 表示p结点的next指针存储了q结点的内存地址。p->next = p->next->next，表示p结点的next指针存储了p结点的下下一个结点的内存地址。...

2018-11-29 17:50:54 199

原创数据结构与算法之美课程笔记一如何抓住重点，系统高效地学习数据结构与算法？

什么是数据结构？什么是算法？从广义上讲，数据结构就是指一组数据的存储结构。算法就是操作数据的一种方法。从狭义上讲，是指某些著名的数据结构和算法，比如队列、栈、堆、二分查找、动态规划等。那数据结构和算法有什么关系呢？数据结构和算法是相辅相成的。数据结构是为算法服务的，算法要作用在特定的数据结构之上。学习的重点是什么？首先要掌握一个数据结构与算法中最重要的概念——复杂度分析。...

2018-11-29 16:36:34 399

原创数据结构与算法之美课程笔记二复杂度分析（上）

数据结构和算法本身解决的是“快”和“省”的问题，即如何让代码运行得更快，如何让代码更省空间。所以，执行效率是算法一个非常重要的考量指标。衡量算法的执行效率最常用的就是时间和空间复杂度分析。一、为什么需要复杂度分析？把代码跑一遍，通过统计、监控来得到算法执行的时间和占用的内存大小，这种做法叫做事后统计法。事后统计法有非常大的局限性：1、测试结果非常依赖测试环境。测试环境中硬件的不同会...

2018-11-29 16:36:16 237

原创数据结构与算法之美课程笔记三复杂度分析（下）

一、最好、最坏情况时间复杂度（best case time complexity，worst case time complexity）// n表示数组array的长度int find(int[] array, int n, int x) { int i = 0; int pos = -1; for (; i < n; ++i) { if (...

2018-11-29 16:36:04 166

原创数据结构与算法之美课程笔记四数组

问题：为什么很多编程语言中数组都从0开始编号？一、如何实现随机访问？数组是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。几个关键词：1、线性表（Linear List）线性表是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。除了数组，链表、队列、栈等也是线性表结构。与它相对立的是非线性表，比如二叉树、堆、图等。在非线性表中，...

2018-11-29 16:35:54 320 2

原创数据结构与算法之美课程笔记五链表（上）

问题：如何用链表来实现 LRU 缓存淘汰策略呢？缓存的大小有限，当缓存被用满时，那些数据应该被清理出去，那些数据应该被保留？这就需要淘汰策略来决定。常见的策略有三种：先进先出策略FIFO（First In，First Out）、最少使用策略LFU（Least Frequently Used）、最近最少使用策略LRU（Least Recently Used）。一、五花八门的链表结构...

2018-11-29 16:35:41 234

原创如何用循环单链表解决约瑟夫问题？

约瑟夫问题：人们站在一个等待被处决的圈子里。计数从圆圈中的指定点开始，并沿指定方向围绕圆圈进行。在跳过指定数量的人之后，执行下一个人。对剩下的人重复该过程，从下一个人开始，朝同一方向跳过相同数量的人，直到只剩下一个人，并被释放。问题即，给定人数、起点、方向和要跳过的数字，选择初始圆圈中的位置以避免被处决。历史：Josephus有过的故事：39 个犹太人与Josephus及他的...

2018-11-27 14:27:25 649

转载线性回归——最小二乘法

原文地址：https://www.cnblogs.com/softlin/p/5815531.html相信学过数理统计的都学过线性回归（linear regression），本篇文章详细将讲解单变量线性回归并写出使用最小二乘法（least squares method）来求线性回归损失函数最优解的完整过程，首先推导出最小二乘法，后用最小二乘法对一个简单数据集进行线性回归拟合；线性回归　...

2018-11-27 10:39:21 472

转载 Logistic回归总结

原文：http://blog.csdn.net/dongtingzhizi/article/details/15962797 Logistic回归总结 PDF下载地址：http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regres...

2018-11-27 10:34:30 180

原创《数据挖掘与数据化运营实战：思路、方法、技巧与应用》第一章什么是数据化运营

《数据挖掘与数据化运营实战：思路、方法、技巧与应用》电子书地址：http://www.chforce.com/books/datamining-om-by-data/index.html数据化运营实施的前提条件包括企业级海量数据存储的实现、精细化运营的需求（与传统的粗放型运营相对比）、数据分析和数据挖掘技术的有效应用等，并且还要得到企业决策层和管理层的支持及推动。数据化运营是现代企业从粗放...

2018-11-23 19:52:26 1676

TopN推荐，即给定一个用户，如何给他生成一个长度为N的推荐列表，使该推荐列表能够尽量满足用户的兴趣和需求。TopN推荐非常接近于满足实际系统的需求，实际系统绝大多数情况下就是给用户提供一个包括N个物品的个性化推荐列表。评分预测问题最基本的数据集就是用户评分数据集。该数据集由用户评分记录组成，每一条评分记录是一个三元组(u,i, r)，表示用户u给物品i赋予了评分r，本章用表示用户u对物品i的...

2018-11-21 17:27:23 5805

原创《推荐系统实践》第七章推荐系统实例

如何设计一个真实的推荐系统处理不同的数据，根据不同的数据设计算法，并将这些算法融合到一个系统当中是本章讨论的主要问题。7.1 外围架构一般来说，每个网站都会有一个UI系统，UI系统负责给用户展示网页并和用户交互。网站会通过日志系统将用户在UI上的各种各样的行为记录到用户行为日志中。日志可能存储在内存缓存里，也可能存储在数据库中，也可能存储在文件系统中。而推荐系统通过分析用户的行为日志，给用...

2018-11-20 17:01:21 649

原创《推荐系统实践》第六章利用社交网络数据

6.1 获取社交网络数据的途径6.1.1 电子邮件我们可以通过分析用户的联系人列表了解用户的好友信息，而且可以进一步通过研究两个用户之间的邮件往来频繁程度度量两个用户的熟悉程度。如果我们获得了用户的邮箱，也可以通过邮箱后缀得到一定的社交关系信息。很多社交网站都在用户注册时提供了让用户从电子邮件联系人中导入好友关系的功能，用以解决社交网络的冷启动问题。6.1.2 用户注册信息有些...

2018-11-20 15:30:41 1166

原创《推荐系统实践》第五章利用上下文信息

用户所处的上下文（context）包括用户访问推荐系统的时间、地点、心情等，对于提高推荐系统的推荐系统是非常重要的。关于上下文推荐的研究，可以参考Alexander Tuzhilin教授（个人主页为http://people.stern.nyu.edu/atuzhili/）的一篇综述“Context Aware Recommender Systems”5.1 时间上下文信息5.1.1 ...

2018-11-16 18:48:34 480

原创在Centos中部署Redis Cluster

一、环境信息操作系统：Centosredis：redis 3.2.11二、redis安装2.1 redis下载在redis官网下载安装包，http://download.redis.io/releases/redis-3.2.11.tar.gz2.2 编译安装rediscp redis-3.2.11.tar.gz /usr/localcd /usr/local...

2018-11-16 15:37:21 110

原创《推荐系统实践》第四章利用用户标签数据

目前流行的推荐系统基本上通过3种方式联系用户兴趣和物品。第一种方式是利用用户喜欢过的物品，给用户推荐与他喜欢过的物品相似的物品，这就是前面提到的基于物品的算法。第二种方式是利用和用户兴趣相似的其他用户，给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品，这是前面提到的基于用户的算法。第三种重要的方式是通过一些特征（feature）联系用户和物品，给用户推荐那些具有用户喜欢的特征的物品...

2018-11-14 18:07:13 577

原创《推荐系统实践》第三章推荐系统冷启动问题

3.1 冷启动问题简介冷启动问题（cold start）主要分3类。（1）用户冷启动：用户冷启动主要解决如何给新用户做个性化推荐的问题。（2）物品冷启动：物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。（3）系统冷启动：系统冷启动主要解决如何在一个新开发的网站上（还没有用户，也没有用户行为，只有一些物品的信息）设计个性化推荐系统，从而在网站刚发布时就让用户体验到...

2018-11-14 17:02:42 443

原创《推荐系统实践》第二章利用用户行为数据

2.1 用户行为数据简介在电子商务网站中行为主要包括网页浏览、购买、点击、评分和评论等。用户行为在个性化推荐系统中一般分两种——显性反馈行为（explicit feedback）和隐性反馈行为（implicit feedback）。显性反馈行为包括用户明确表示对物品喜好的行为。隐性反馈行为指的是那些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为。按照反馈的明确...

2018-11-09 17:50:20 1344

原创《推荐系统实战》第一章好的推荐系统

1.1 什么是推荐系统个性化推荐系统：一个自动化的工具，它可以分析你的历史兴趣，从庞大的信息中找到符合你兴趣的物品供你选择。充分研究用户的兴趣正是个性化推荐系统主要解决的问题。推荐系统通过发掘用户的行为，找到用户的个性化需求，从而将长尾商品准确地推荐给需要它的用户，帮助用户发现那些他们感兴趣但很难发现的商品。几种方式：（1）社会化推荐让好友给自己推荐物品（2）基于内容的推荐通过...

2018-11-09 15:54:56 546

原创在Windows 7 中安装部署Mysql

一、环境准备在Window中安装Mysql，需要先安装Visual C++ Redistributable Packages for Visual Studio 2013，否则报错“缺少MSVCR120.dll文件”。在官网下载进行安装，https://download.microsoft.com/download/F/3/5/F3500770-8A08-488E-94B6-17A1E1D...

2018-11-09 14:56:49 197

转载 [转载] s3cmd安装及配置

一、安装s3cmd。安装命令如下所示： yum -y install python-pip pip install s3cmd二、配置s3cmd。配置s3cmd有两种方式： 1. 使用s3cmd --configure方式配置。这种方式更适合使用正式S3用户的方案使用。 ...

2018-11-08 18:26:21 1577

原创在windows 7中安装部署spark(python版)

一、搭建的环境windows7spark-2.3.2python-3.6.5Java8二、安装部署1、安装Java/Jdk下载jdk-8u152-windows-x64.exe，根据安装指南进行安装，配置环境变量JAVA_HOME，在Path中添加%JAVA_HOME%\bin和%JAVA_HOME%\jre\bin，在CLASSPATH中添加%JAVA_HOME%\l...

2018-11-08 14:08:43 636

原创在Windows 7中编译Hadoop 2.7.7

一、下载Hadoop2.7.7源码解压后，查看BUILDING.txt文件，其中详细描述了在windows下编译hadoop需要的条件和步骤，具体见下：----------------------------------------------------------------------------------Building on Windows--------------...

2018-11-08 13:17:28 1905

原创在Centos中编译hadoop2.7.7

一、准备工作环境：Centos系统1、Jdk 1.8和Maven安装不再赘述。2、Protocol Buffer安装下载Protocol Buffer2.5.0的源码（https://github.com/protocolbuffers/protobuf/releases/download/v2.5.0/protobuf-2.5.0.tar.gz）解压，并进行编译、安装tar...

2018-11-07 15:05:26 683

空空如也

空空如也