自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

PURSUE ONE PIECE

学历代表过去,财力代表现在,学习力代表将来,所见所闻改变一生,不知不觉断送一生。...

原创 爬虫学习笔记-WebMagic初识

WebMagic是一款基于Java开源的简单灵活的爬虫框架,使用起来非常简单,与Scrapy爬虫框架很相似,WebMagic的原理与使用官方有详细的说明,这里就不再陈述,直接上实例。使用说明链接地址: http://webmagic.io/docs/zh/ us.codecr...

2016-10-29 01:50:09

阅读数 1419

评论数 3

原创 爬虫学习笔记-Scrapy散记1

一、Selenium模拟浏览器爬取界面 def selenium_crawl_goubanjia_proxy_ip(): parent_dir = os.path.dirname(__file__) current_operation_system = platform.s...

2016-10-29 01:20:03

阅读数 702

评论数 0

原创 爬虫学习笔记-Scrapy初识

Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类。 基于Pyt...

2016-10-29 00:40:56

阅读数 1846

评论数 0

原创 Titan学习笔记-初识

Titan 是一个在服务器集群搭建的分布式的图形数据库,特别为存储和处理大规模图形而优化。集群很容易扩展以支持更大的数据集,Titan有一个很好的插件式性能,这个性能让它搭建在一些成熟的数据库技术上像 Apache Cassandra、Apache HBase、 Oracle BerkeleyD...

2016-10-28 14:39:31

阅读数 5892

评论数 14

提示
确定要删除当前文章?
取消 删除