- 博客(5)
- 收藏
- 关注
原创 PyHusky处理属性图数据生成——由XML文件到完整图形为例
目前为止,网络上能找到的关于large attributed graph的数据集还非常少。更多的是单纯的关系图,这样就缺少了必要的属性数据。所以我们需要在获得原始数据后,再经过一系列数据计算处理得到我们所要的图数据。下面我将提供已经处理好了的三组完整属性图数据的下载链接,同时利用前面讲过的PyHuksy来介绍其中的一组数据的生成过程。Tencent_GraphDBLP_Journal_Graph
2017-04-03 21:04:56 30227 1
原创 遥想宇宙
昨晚看到人民的名义中说到连城胸怀宇宙,大彻大悟。哈,就想把中学时期胸怀宇宙的文章原文贴了出来: 某人很小很小的时候,曾幻想着能够飞向天空,到那神秘的美丽的可爱的天堂摘下自己渴望的那颗星星。很多时候,包括在梦里,都想童话故事般天真地想象自己拥有那么一颗星星,能够永远作为最亮的夜明珠放在自己地床头。但年龄似乎粉碎了这些幼稚的想法,冷冰冰的“真实”的宇宙观却乗虚而入。也许还是年龄在搞鬼,处在幼稚和
2017-04-12 00:44:35 12368
原创 分布式网络爬虫实例——获取静态数据和动态数据
前言刚刚介绍完基于PyHusky的分布式爬虫原理及实现,让我们具备了设计分布式网络爬虫方便地调动计算资源来实现高效率的数据获取能力。可以说,有了前面的基础,已经能够解决互联网上的绝大部分网站的数据获取问题。下面我将以正常模式爬取某地产网站上相关的新房、二手房和租房信息;然后使用selenium来抓取动态数据来分别介绍两种类型网站的分布式网络爬虫的实现:实例由于前面已经设计好了实现分布式爬虫的框架,它
2017-04-11 14:51:10 17130 2
原创 机器学习:KNN归类算法实现验证码识别
算法简介KNN(K Nearest Neighbor)是机器学习中非常经典的,同时也容易理解的算法。与K-Means算法用于聚类不同的是,KNN是为事物的归类而生的。简单地说,就是知道一批事物的数据特征及各自所属的分类,来根据一个新事物的数据特征来判断其最大可能归属于其中的哪一类的过程。这个判断依据即是计算欧式距离,得到新数据特征向量与原有数据特征向量距离最小的前K个事物所属的分类,得到的这些分类中
2017-04-10 20:38:45 28340 8
原创 基于PyHusky的分布式爬虫原理及实现
原理爬虫是我们获取互联网数据的一个非常有效的方法,而分布式爬虫则是利用许多台机器协调工作来加快抓取数据效率的不二途径。分布式爬虫是由访问某些原始网址开始,在获取这些网址的内容后,根据某些规则从中提取出下一轮的爬虫网址。依此类推,直到将全部链接访问完毕或达到我们设置的某些限定方可结束。这里我们需要选定一个运算效率较高的机器作为master, 和一群正常的workers来协助。这个master要负
2017-04-06 17:14:01 32038 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人