R包(与数据挖掘有关)

1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基...

2016-03-11 13:57:20

阅读数 265

评论数 0

hive基础操作

hive-f  执行指定文件中的一个或者多个查询语句 大多数导航按键使用的ctrl+字母的命令和bash shell中是相同的 (例如,ctrl+A代表光标移到行首,ctrl+B代表光标移到行尾) 然而类似的“元操作”option或者escape键就不起作用了(例如,ctrl+F一次向前移动一...

2016-02-29 16:39:28

阅读数 198

评论数 0

竞品分析报告正确的打开方式

摘要:写竞品分析报告之前,首先要弄其归纳出写这篇报告的目的是什么,然后根据目的去有所侧重的分析,针对一些东西进行着重分析,而另外一些东西进行弱化处理。 如果说就多数人的分析报告来谈,并没有什么用,因为分析的都是一些流于表面的东西,连一些总结性的东西都没有,所以最后也就导致了这篇竞品分析事为了报告...

2016-02-22 17:12:01

阅读数 355

评论数 0

做竞品分析时,几个容易犯的错误

在竞品分析报告中,几个常犯的错误: 一、没有结论的功能点介绍 最常见的竞品分析方法是对市场上的领先产品进行一次浏览,逐个写出竞品的功能点及流程,不管使用了整齐的表格或者详实的文字描述,又或者是使用了漂亮的图形或者截图,没有结论的统计是没有意义的,分析就一定要有结果。竞品分析的目的局势为自身产品...

2016-02-19 18:43:35

阅读数 385

评论数 0

2016依然坚挺

不要为了一些东西而养成一个坏习惯! 比如以前的我,因为工作严重加班,养了晚睡的习惯,也养成了晚起的习惯,一直延续了好久,导致身体欠佳,去看了医生,医生开了药,说要早睡,神经衰弱,布拉布拉的。最后想了想,也许当初的选择是不明智的,因为时机不对,最后还是爱自己,裸辞了,修整了半个月!对996,007...

2016-01-28 14:55:30

阅读数 276

评论数 0

数据分析师必须掌握的完整知识结构

摘要:作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 在互联网高速发展的今天,大数据依然渗透到我们的生活和工作,企业要想在未来获得更多的价值,大数据和数据分析师是非常有必要的。但是...

2015-10-29 16:56:14

阅读数 2456

评论数 0

数据分析项目流程

1、业务理解 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个只是转化为数据挖掘问题的定义和完成目标的初步计划。 2、数据理解 数据理解阶段从初始数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的...

2015-10-29 16:37:56

阅读数 1366

评论数 0

证明方法------杂谈

1、综合法 综合法是一种从题设到结论的逻辑推理方法,也就是由因导果的证明方法 2、分析法 分析法是一种从结论到题设的逻辑推理方法,也就是执果索因的证明方法。分析法的证明路径与综合法恰恰相反 3、反证法 由于原命题与逆否命题等效,所以当证明原题有困难或者无法证明时,可以考虑证明它的逆否命题...

2015-09-29 18:05:15

阅读数 335

评论数 0

K-Core算法

来自于百度 为减轻K-means算法对孤立点的敏感性,k中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。 K中心算法的基本过程是:首先为每个簇随意选择一个代表对象,剩余的对象根据其与每个代表对象的距离(此处距离不一定是欧氏距离,也可能是曼哈顿距离)分配给最近...

2015-09-25 17:43:15

阅读数 8951

评论数 1

热点算法

点在路上,不知道有多少个热点,所以K无法确定,不是KMEANS也不是K均值 有好多个点,第一次这个A点为热点记为1,然后在一定距离内,下一次经过这个点附近,叫做B,取AB中间的一个点,记为C,把C记作2,再经过一个点D,取CD之间的一个点E,记为3,(此时CD权重不同,C的权重大,离C近).以此类...

2015-09-25 17:38:52

阅读数 1010

评论数 0

聚类与分类的区别

分类:按照某种标准给对象贴标签,再根据标签区分归类 聚类:事先没有标签而通过某种成因找出事物之间存在聚集性原因的过程 区别:分类事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于指导学习范畴。分类法适合类别或分类体系确定的场合,比如按照国图分类法分类图书。     ...

2015-09-25 17:15:24

阅读数 2542

评论数 0

无监督学习和监督学习的用途

来自于机器学习实战,让我们开启算法之旅吧 用于执行分类、回归、聚类和密度估计的机器学习算法 监督学习的用途: K—近邻算法 线性回归 朴素贝叶斯算法 局部加权线性回归  支持向量机 RIdge回归 决策树 Lasso最小回归系数估计 无监督学习的用途: K-均值 最大期望...

2015-08-28 11:01:50

阅读数 345

评论数 0

KCore算法

KCore算法思想: 为了减轻k均值算法对孤立点的敏感性,k中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。

2015-08-27 17:19:34

阅读数 3405

评论数 0

Kmeans算法

来自于百度百科 Kmeans 定义:最为经典的基于划分的聚类方法 算法流程:从n个数据对象任意选择K个对象 Kmeans算法 算法接受参数K;然后将事先输入的n个数据对象划分为K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 聚类...

2015-08-27 16:39:30

阅读数 446

评论数 0

KNN邻近算法

邻近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法 K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表 KNN算法的核心思想是如果一个样本在特征空间中的K的最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本...

2015-08-27 15:41:35

阅读数 600

评论数 0

麦肯锡—思考

最近,抽出时间阅读了一本书,《麦肯锡教我思考的武器》。现在是隔了几天写感悟。 1、深究议题,此事是否可行,研究的价值多大。根据目前的行业情况是否能做,或者做好。 2、不要抱一种没有功劳也有苦劳的那种思维方式,这是败者之路 3、多问几个so what? 4、不要被他人的意见所左右,这是你的事...

2015-08-27 14:42:56

阅读数 360

评论数 0

京东推荐系统实践——打造千人千面的个性化推荐引擎

京东推荐产品及架构通用模型的应用离线CTR预测实例实验与监控京东推荐产品 80+推荐产品,包括移动端和web端 20+推荐服务,支撑EDM、广告、微信端等 遍布用户网络的各个环节推荐系统的价值 挖掘用户潜在购买需求 缩短用户到商品的距离 用户需求不明确时提供参考 满足用户的好奇心 推荐产品实例...

2015-06-13 17:54:23

阅读数 5845

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭