自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 微博大V社交圈子分析

本次分析数据包含了微博中粉丝数排名前1W的用户,以及他们之间的相互关系。这里的关系指的是两人相互关注,如果仅仅是单边关注,则并不包括在内。所以再剔除掉单边关系后,总共有8W条边。得到的分析结果如下所示。分析方法见这里上图中,每种颜色都代表了一个社区(community),在观察了每个社区中的若干个点以后,我为每个社区取了个大概的名字,如下所示可以看到,粉红色的娱乐圈雄踞右上角,大图如下,代表人物如何

2016-02-29 12:04:24 3543

转载 [Python]time模块以及时间戳的使用

1.将字符串的时间转换为时间戳方法:import timea = "2013-10-10 23:40:00"# 将其转换为时间数组timeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S")# 转换为时间戳:timeStamp = int(time.mktime(timeArray))print( timeStamp == 1381419600 )2

2016-02-28 21:08:04 7020 1

原创 使用networkx导出关系网络并用gephi进行简单分析

之前使用爬虫获取到了微博上粉丝数大于2000的用户,大概在10W左右,并获取了他们的关注用户列表。现在,需要利用这些节点和节点间的关系网来进行社区探测(community detection),以进行进一步分析。不过在此之前,需要攫取一些小样本进行简单的可视化。使用networkx(python)导出gexf格式文件这边使用gephi来进行分析。而使用gephi需要有gexf或者gephi格式的数

2016-02-28 11:21:21 26512 8

原创 微博移动端所获数据各字段的含义

最近在写微博的爬虫,框架已经基本稳定,但是在解析各字段含义的环节卡了好几天,因为不清楚各个字段的含义,官网的api注释好像有点过时,很多字段没有注释,所以只能自己一点一点分析了现在把我自己分析得到的各字段含义分享一下,不能保证完全正确,但是大致无误移动端得到的微博数据是json格式的,获得一个页面的数据以后,设为data,则 data[‘cards’][0][‘card_group’] 能够获

2016-02-25 15:08:42 3517 1

原创 [Python] re(正则表达式) 模块使用方法

关于正则表达式本身,就不多讲了,网上有好多教程。这里主要是讲下使用re模块中碰到的坑。。。re.compile把正则表达式编译为一个对象。可以选择把常用的正则表达式编译好,可以适当提高效率 举例:pattern=re.compile(r'<a href.+?</a>')re.findall原来以为match是用来查找字符串中是否有目标字段的,后来发现结果怎么也出不来,再一查发现这个角色被finda

2016-02-21 12:28:13 2406

转载 Hadoop生态圈简介

本文转自知乎大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据。 传统的文件系统是单机的,不能横跨

2016-02-20 15:21:36 1207

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除