自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 问答 (1)
  • 收藏
  • 关注

转载 java中调用Python__C中调用Python

转载自:http://blog.sina.com.cn/s/blog_64e467d60100uhls.html http://sourceforge.net/projects/jython/下载jython包,把其中的jython.jar添加到工程目录1.在Java类中直接执行Python语句 view plain import javax.script.*; import org.pyt

2016-11-23 23:04:27 354

原创 【Mongodb】记录1_开始MongDB

1.进入mongodb的bin目录执行命令 2.启动服务 mongod –dbpath [mongodb路径]\data –storageEngine =mmapv1 –journal 3.浏览器输入http://localhost:27017/ 出现页面提示 It looks like you are trying to access MongoDB over HTTP on the n

2016-11-14 15:06:28 415

原创 【Scrapy】学习记录3_编写简单爬虫

编写简单爬虫 爬取自己的csdn博文链接# -*- coding:gb2312 -*- from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector #

2016-11-09 17:25:28 305

原创 【Scrapy】学习记录2_爬虫Spider

items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的字典 pipelines.py:用来将提取出来的Item进行处理,处理过程按自己需要进行定义spiders:定义自己的爬虫 =========================================== 1.测试示例爬虫 直接执行quotesbot示例工程spiders中爬虫toscrap

2016-11-08 15:59:07 1696

原创 【WebScraping】并行下载_多线程爬虫&多进程爬虫

当一个线程等待下载时,进程可以切换到其他线程执行,避免浪费cpu时间,即:将下载分发到多个进程和线程中 【思路整理】 针对待爬取的URL队列 (1)若将队列存储在本地内存中,则只能用单独的进程处理该队列, 但进程里可以分为多个线程,对该进程的不同部分进行处理, 用多线程爬虫实现; (2)若将队列单独存储(MongoDB队列),则不同服务器上的爬虫能协同处理同一个爬虫任务,实现多个进程同时

2016-11-08 14:57:46 1624

原创 【Scrapy】学习记录1_一个基本的Scrapy项目

[Scrapy整体架构] =========================================== 引擎(Scrapy Engine),用来处理整个系统的数据流处理,触发事务。调度器(Scheduler),用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。下载器(Downloader),用于下载网页内容,并将网页内容返回给蜘蛛。蜘蛛(Spiders),蜘蛛是主要干活

2016-11-08 10:42:48 645

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除