自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 复杂网络节点重要性评价方法的对比-基于igraph C library

前言        在此之前,笔者写过一篇关于复杂网络中节点重要性评估方法的文章(http://blog.csdn.net/a_step_further/article/details/51176964),当时用spark实现过比较简单的方法。近期在业务应用中,又遇到需要对业务问题中不同用户的影响力进行分级的需求,那么重新捡起来复习下。这次使用igraph C library来做,因为

2016-04-18 08:24:49 10706

原创 复杂网络社区结构发现算法-基于igraph 标签传播算法

【前言】      继续我们本系列对复杂网络社区结构的方法探索,之前已经尝试过spark上标签传播算法、igraph 中随机游走算法、networkx中的clique渗透算法(见笔者相关文章),但一直局限于无向、无权重图的分析。本次,向前迈一步,引入权重。选用了igraph中的标签传播算法。【方法讨论】      相比于spark上的标签传播算法,发现igraph中的接口增

2016-04-18 08:22:55 9735 2

原创 复杂网络社区结构发现算法-基于python networkx clique渗透算法

前言    最近因为业务数据分析的需要,看社区发现相关的东东稍多些,刚刚写过一篇基于igraph C library的方法(http://km.oa.com/group/22323/articles/show/240332),然后想用kclique衍生的clique渗透算法时发现igraph C library 并未提供现成的api,对于懒人来说,这很不幸。既而发现networkx这个

2016-04-18 08:21:03 26467 18

原创 复杂网络社区结构发现算法-基于igraph C library

在社交网络数据分析领域,igraph算法包提供了多种应用接口,且支持C、python、R三种语言,通常大家使用python 或 R 的机会更多些。近期出于业务需要,希望提高关系数据计算的效率,我们探索了一下C library的使用方法,以随机游走这个社区挖掘算法为例,进行了尝试,特记录一下,希望能对相关领域的同事有所借鉴。 重点备注  1. 建网络,可以直接调用 igraph_re

2016-04-18 08:19:35 8227 1

原创 Spark开发环境配置(windows/Intellij IDEA 篇)

Intellij IDEA是一个蛮不错的IDE,在java/scala/Groovy领域深得人心。笔者之前使用的是Eclipse那一套开发环境,虽然也不错,但忍不住好奇心的驱使,折腾了一下IDEA,发现写起Spark程序来,“哎呦,不错哟!”,故总结一下在windows系统中的配置过程(在mac下的配置其实更简单一些),自己琢磨时还是费了点劲的,网上各种教程新旧正误繁杂,好不麻烦,加上笔者工作中最

2016-04-18 08:16:33 17122 4

原创 复杂网络节点重要性评价方法初探

在一个网络中,不同的节点起着大小不同的作用。以社交网络为例,有意见领袖的大V,有死寂沉沉的僵尸粉;以交通网络为例,有至关重要的交通枢纽,有无关痛痒的备用中转站。在使用复杂网络分析业务问题时,如何区分网络中不同节点的重要性程度,就是一个需要考虑的问题。为了解决我们自己的业务问题,顺便了解了一下相关的方法,特记录一下,若有益于相关领域的同学,则幸甚。    一、要实现的目标    对网

2016-04-18 08:13:28 23035 5

原创 初试主题模型LDA-基于python的gensim包

LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取,故而尝试了一下该算法,基于python的gensim包实现一个简单的分析。准备工作安装python的中文分词模块, jieba安装python的文本主题建模的模块, gensim (官网 https://r

2016-04-18 08:11:04 14692 3

原创 基于NaiveBayes的文本分类之Spark实现

在尝试了python下面用sklearn进行文本分类(http://blog.csdn.net/a_step_further/article/details/50189727)后,我们再来看下用spark如何实现文本分类的工作,采用的算法同样是朴素贝叶斯。    此前,我们已经实现了hadoop集群环境下使用mapreduce进行中文分词(http://blog.csdn.net/a_st

2016-04-18 08:08:15 2511

原创 特征选择方法学习笔记

一直以来,笔者在实际工作中,对于特征变量的选取,往往是基于业务经验,根据一定的指标口径加工出一个个指标后,即投入到建模过程。而这些指标的好坏、计算口径是否恰当,较少有进行科学地分析与深入思考。与此同时,不少数据挖掘的教科书也对特征选择方法谈及甚少,笔者认为这不是个好现象,间接导致很多人看完了各种分类、聚类算法后,以为自己已经通晓数据挖掘了,但一遇到实际问题,又不知从何处下手了。今日打算学习一下该领

2016-04-04 21:43:35 10489

原创 数据科学系列读书笔记

记录一下笔者所阅读过的与大数据相关的书籍,以及阅读感受,以期为同仁提供此许参考建议。1. 《数据科学实战》(英文版本名称: Doing data science)笔者点评:这是一本有态度、有观点的书。从者在其中表达了对业界一些关于大数据说法的不认可。同时,作者没有装作万事通,而是很实在地讲,有些分析思路,他也不知道什么好什么不好,而要通过实践来尝试。比如第22页,作者写道 “你怎么知道什么

2016-04-03 09:26:59 1905

原创 大数据中的隐藏偏差

偶读Kate Crawford(供职于微软研究院)女士2013年的一篇旧文 ,仍有所触动,故而作读书笔记一篇。    先抛一个问题:数据科学的目标是什么?    笔者认为,人类社会很大的诱惑与恐惧均来自于对未来的不可知。我们因为害怕未知的疾病、灾难,而选择了宗教;因为不确定市场价格的未来走势,而热衷于K线图分析来试图聆听市场的提示;因为不知道谁更愿意购买我们的商品,而建立市场调研与

2016-04-02 11:35:56 3843

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除