huizhejian-CSDN博客

原创一些需要汇总

数值最优化 Numerical Optimization 2nd

2020-05-07 14:40:10 130

转载 R包（与数据挖掘有关）

1、聚类常用的包： fpc，cluster，pvclust，mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plot.hclust

2016-03-11 13:57:20 464

转载 hive基础操作

hive-f 执行指定文件中的一个或者多个查询语句大多数导航按键使用的ctrl+字母的命令和bash shell中是相同的（例如，ctrl+A代表光标移到行首，ctrl＋B代表光标移到行尾）然而类似的“元操作”option或者escape键就不起作用了（例如，ctrl+F一次向前移动一个单词这样的命令）相似detele会删除光标左边的字符forward delete回

2016-02-29 16:39:28 401

转载竞品分析报告正确的打开方式

摘要：写竞品分析报告之前，首先要弄其归纳出写这篇报告的目的是什么，然后根据目的去有所侧重的分析，针对一些东西进行着重分析，而另外一些东西进行弱化处理。如果说就多数人的分析报告来谈，并没有什么用，因为分析的都是一些流于表面的东西，连一些总结性的东西都没有，所以最后也就导致了这篇竞品分析事为了报告而报告的，并没有什么实际价值。甚至有的人的竞品分析报告所列举的产品根本不能算得上是竞品，这样的竞品分析

2016-02-22 17:12:01 527

转载做竞品分析时，几个容易犯的错误

在竞品分析报告中，几个常犯的错误：一、没有结论的功能点介绍最常见的竞品分析方法是对市场上的领先产品进行一次浏览，逐个写出竞品的功能点及流程，不管使用了整齐的表格或者详实的文字描述，又或者是使用了漂亮的图形或者截图，没有结论的统计是没有意义的，分析就一定要有结果。竞品分析的目的局势为自身产品的战略、节奏、功能点、交互视觉等多方面提供参考，指导自身工作实践。可以遵循以下的链条：竞品在做什么——

2016-02-19 18:43:35 661

原创 2016依然坚挺

不要为了一些东西而养成一个坏习惯！比如以前的我，因为工作严重加班，养了晚睡的习惯，也养成了晚起的习惯，一直延续了好久，导致身体欠佳，去看了医生，医生开了药，说要早睡，神经衰弱，布拉布拉的。最后想了想，也许当初的选择是不明智的，因为时机不对，最后还是爱自己，裸辞了，修整了半个月！对996，007现在都依然有阴影！然后去几家公司面试，基本都能拿到最终的offer，在纠结中选择，因为几家给的of

2016-01-28 14:55:30 382

转载数据分析师必须掌握的完整知识结构

摘要：作为数据分析师，无论最初的职业定位方向是技术还是业务，最终发到一定阶段后都会承担数据管理的角色。因此，一个具有较高层次的数据分析师需要具备完整的知识结构。在互联网高速发展的今天，大数据依然渗透到我们的生活和工作，企业要想在未来获得更多的价值，大数据和数据分析师是非常有必要的。但是作为数据分析师，无论最初的职业定位方向是技术还是业务，最终发到一定阶段后都会承担数据管理的角色。因此，

2015-10-29 16:56:14 3787

翻译数据分析项目流程

1、业务理解最初的阶段集中在理解项目目标和从业务的角度理解需求，同时将这个只是转化为数据挖掘问题的定义和完成目标的初步计划。2、数据理解数据理解阶段从初始数据收集开始，通过一些活动的处理，目的是熟悉数据，识别数据的质量问题，首次发现数据的内部属性，或是探测引起兴趣的子集去形成隐含信息的假设3、数据准备数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的

2015-10-29 16:37:56 2021

原创证明方法------杂谈

1、综合法综合法是一种从题设到结论的逻辑推理方法，也就是由因导果的证明方法2、分析法分析法是一种从结论到题设的逻辑推理方法，也就是执果索因的证明方法。分析法的证明路径与综合法恰恰相反3、反证法由于原命题与逆否命题等效，所以当证明原题有困难或者无法证明时，可以考虑证明它的逆否命题，通过正确推理如果逆否命题正确或者推出与原命题题设、公理定理等不相容的结论，从而判定结论的反面不成立，

2015-09-29 18:05:15 794

原创 K-Core算法

来自于百度为减轻K-means算法对孤立点的敏感性，k中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心。K中心算法的基本过程是：首先为每个簇随意选择一个代表对象，剩余的对象根据其与每个代表对象的距离（此处距离不一定是欧氏距离，也可能是曼哈顿距离）分配给最近的代表对象所代表的簇；然后反复用非代表对象来代替代表对象，以优质聚类质量。聚类质量用一个代价函数来表示

2015-09-25 17:43:15 18009 3

原创热点算法

点在路上，不知道有多少个热点，所以K无法确定，不是KMEANS也不是K均值有好多个点，第一次这个A点为热点记为1，然后在一定距离内，下一次经过这个点附近，叫做B，取AB中间的一个点，记为C,把C记作2，再经过一个点D，取CD之间的一个点E，记为3，（此时CD权重不同，C的权重大，离C近）.以此类推，只是一个距离最近的算法

2015-09-25 17:38:52 2351

转载聚类与分类的区别

分类：按照某种标准给对象贴标签，再根据标签区分归类聚类：事先没有标签而通过某种成因找出事物之间存在聚集性原因的过程区别：分类事先定义好类别，类别数不变。分类器需要由人工标注的分类训练语料训练得到，属于指导学习范畴。分类法适合类别或分类体系确定的场合，比如按照国图分类法分类图书。聚类则没有事先预定的类，类别数不确定。聚类不需要人工标注和预先训练分类器，类别在聚类的过

2015-09-25 17:15:24 3752

原创无监督学习和监督学习的用途

来自于机器学习实战，让我们开启算法之旅吧用于执行分类、回归、聚类和密度估计的机器学习算法监督学习的用途：K—近邻算法线性回归朴素贝叶斯算法局部加权线性回归支持向量机 RIdge回归决策树 Lasso最小回归系数估计无监督学习的用途：K-均值最大期望算法 DBSCAN Parzen窗设计监督学习是这类算法必须知道预测什么，即目标

2015-08-28 11:01:50 1776

原创 KCore算法

KCore算法思想：为了减轻k均值算法对孤立点的敏感性，k中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心。

2015-08-27 17:19:34 6959 1

原创 Kmeans算法

来自于百度百科Kmeans定义：最为经典的基于划分的聚类方法算法流程：从n个数据对象任意选择K个对象Kmeans算法算法接受参数K；然后将事先输入的n个数据对象划分为K个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个”中心对象“（引力中心）来进行计算的。基本思想：以空间

2015-08-27 16:39:30 616

原创 KNN邻近算法

邻近算法，或者说K最近邻（KNN,K-NearestNeighbor)分类算法K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻居来代表KNN算法的核心思想是如果一个样本在特征空间中的K的最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待样本所属的类别。KNN在

2015-08-27 15:41:35 899

原创麦肯锡—思考

最近，抽出时间阅读了一本书，《麦肯锡教我思考的武器》。现在是隔了几天写感悟。1、深究议题，此事是否可行，研究的价值多大。根据目前的行业情况是否能做，或者做好。2、不要抱一种没有功劳也有苦劳的那种思维方式，这是败者之路3、多问几个so what?4、不要被他人的意见所左右，这是你的事情个人感觉最后一点对于我来说很难。最后再附上一个图，说明一个问题感

2015-08-27 14:42:56 519

原创京东推荐系统实践——打造千人千面的个性化推荐引擎

京东推荐产品及架构通用模型的应用离线CTR预测实例实验与监控京东推荐产品80+推荐产品，包括移动端和web端20+推荐服务，支撑EDM、广告、微信端等遍布用户网络的各个环节推荐系统的价值挖掘用户潜在购买需求缩短用户到商品的距离用户需求不明确时提供参考满足用户的好奇心推荐产品实例不同位置的推荐产品定位不同单品页：购买了意图过滤页提高客单价购物车页：购物决策无结果

2015-06-13 17:54:23 9262 1

huizhejian的博客