2016年04月_a_step_further

原创复杂网络节点重要性评价方法的对比-基于igraph C library

前言在此之前，笔者写过一篇关于复杂网络中节点重要性评估方法的文章（http://blog.csdn.net/a_step_further/article/details/51176964），当时用spark实现过比较简单的方法。近期在业务应用中，又遇到需要对业务问题中不同用户的影响力进行分级的需求，那么重新捡起来复习下。这次使用igraph C library来做，因为

2016-04-18 08:24:49 10706

原创复杂网络社区结构发现算法-基于igraph 标签传播算法

【前言】继续我们本系列对复杂网络社区结构的方法探索，之前已经尝试过spark上标签传播算法、igraph 中随机游走算法、networkx中的clique渗透算法（见笔者相关文章），但一直局限于无向、无权重图的分析。本次，向前迈一步，引入权重。选用了igraph中的标签传播算法。【方法讨论】相比于spark上的标签传播算法，发现igraph中的接口增

2016-04-18 08:22:55 9735 2

原创复杂网络社区结构发现算法-基于python networkx clique渗透算法

前言最近因为业务数据分析的需要，看社区发现相关的东东稍多些，刚刚写过一篇基于igraph C library的方法（http://km.oa.com/group/22323/articles/show/240332），然后想用kclique衍生的clique渗透算法时发现igraph C library 并未提供现成的api，对于懒人来说，这很不幸。既而发现networkx这个

2016-04-18 08:21:03 26467 18

原创复杂网络社区结构发现算法-基于igraph C library

在社交网络数据分析领域，igraph算法包提供了多种应用接口，且支持C、python、R三种语言，通常大家使用python 或 R 的机会更多些。近期出于业务需要，希望提高关系数据计算的效率，我们探索了一下C library的使用方法，以随机游走这个社区挖掘算法为例，进行了尝试，特记录一下，希望能对相关领域的同事有所借鉴。重点备注 1. 建网络，可以直接调用 igraph_re

2016-04-18 08:19:35 8227 1

原创 Spark开发环境配置(windows/Intellij IDEA 篇)

Intellij IDEA是一个蛮不错的IDE，在java/scala/Groovy领域深得人心。笔者之前使用的是Eclipse那一套开发环境，虽然也不错，但忍不住好奇心的驱使，折腾了一下IDEA，发现写起Spark程序来，“哎呦，不错哟！”，故总结一下在windows系统中的配置过程(在mac下的配置其实更简单一些)，自己琢磨时还是费了点劲的，网上各种教程新旧正误繁杂，好不麻烦，加上笔者工作中最

2016-04-18 08:16:33 17122 4

原创复杂网络节点重要性评价方法初探

在一个网络中，不同的节点起着大小不同的作用。以社交网络为例，有意见领袖的大V，有死寂沉沉的僵尸粉；以交通网络为例，有至关重要的交通枢纽，有无关痛痒的备用中转站。在使用复杂网络分析业务问题时，如何区分网络中不同节点的重要性程度，就是一个需要考虑的问题。为了解决我们自己的业务问题，顺便了解了一下相关的方法，特记录一下，若有益于相关领域的同学，则幸甚。一、要实现的目标对网

2016-04-18 08:13:28 23035 5

原创初试主题模型LDA-基于python的gensim包

LDA是文本挖掘中常用的主题模型，用来从大量文档中提取出最能表达各个主题的一些关键词，具体算法原理可参阅KM上相关文章。笔者因业务需求，需对腾讯微博上若干账号的消息进行主题提取，故而尝试了一下该算法，基于python的gensim包实现一个简单的分析。准备工作安装python的中文分词模块， jieba安装python的文本主题建模的模块, gensim (官网 https://r

2016-04-18 08:11:04 14692 3

原创基于NaiveBayes的文本分类之Spark实现

在尝试了python下面用sklearn进行文本分类（http://blog.csdn.net/a_step_further/article/details/50189727）后，我们再来看下用spark如何实现文本分类的工作，采用的算法同样是朴素贝叶斯。此前，我们已经实现了hadoop集群环境下使用mapreduce进行中文分词（http://blog.csdn.net/a_st

2016-04-18 08:08:15 2511

原创特征选择方法学习笔记

一直以来，笔者在实际工作中，对于特征变量的选取，往往是基于业务经验，根据一定的指标口径加工出一个个指标后，即投入到建模过程。而这些指标的好坏、计算口径是否恰当，较少有进行科学地分析与深入思考。与此同时，不少数据挖掘的教科书也对特征选择方法谈及甚少，笔者认为这不是个好现象，间接导致很多人看完了各种分类、聚类算法后，以为自己已经通晓数据挖掘了，但一遇到实际问题，又不知从何处下手了。今日打算学习一下该领

2016-04-04 21:43:35 10489

原创数据科学系列读书笔记

记录一下笔者所阅读过的与大数据相关的书籍，以及阅读感受，以期为同仁提供此许参考建议。1. 《数据科学实战》（英文版本名称： Doing data science）笔者点评：这是一本有态度、有观点的书。从者在其中表达了对业界一些关于大数据说法的不认可。同时，作者没有装作万事通，而是很实在地讲，有些分析思路，他也不知道什么好什么不好，而要通过实践来尝试。比如第22页，作者写道 “你怎么知道什么

2016-04-03 09:26:59 1905

原创大数据中的隐藏偏差

偶读Kate Crawford（供职于微软研究院）女士2013年的一篇旧文，仍有所触动，故而作读书笔记一篇。先抛一个问题：数据科学的目标是什么？笔者认为，人类社会很大的诱惑与恐惧均来自于对未来的不可知。我们因为害怕未知的疾病、灾难，而选择了宗教；因为不确定市场价格的未来走势，而热衷于K线图分析来试图聆听市场的提示；因为不知道谁更愿意购买我们的商品，而建立市场调研与

2016-04-02 11:35:56 3843

a_step_further的博客