Eclipse上crawler4j环境配置

一.crawler4j下载地址 点击右边绿色框下载zip包


二.配置maven的settings.xml

  1. 打开Windows(窗口)->Preferences(首选项)->Maven 在Users Setting处找到settings.xml应在的位置


此处需要自己创建一个settings.xml的文件,并且把最末尾代码复制进去。(maven国内源用的阿里云)

三.将crawler4j包导入eclipse,导入选择File->import->maven->Existing Maven Project


导入后pom.xml会报错,是因为缺少pluginManagemen标签
在pom.xml的build前后加入即可,加入效果类似
<build>
    <pluginManagement>
        <plugins>
            <plugin> ... </plugin>
            <plugin> ... </plugin>
                  ....
        </plugins>
    </pluginManagement>
</build>


加入标签后保存即可解决错误


有问题可以留言或者私信


<settings xsi:schemaLocation="http://maven.apache.org/SETTINGS/1.0.0 http://maven.apache.org/xsd/settings-1.0.0.xsd">
	   <mirrors>
	  <mirror>
		<id>alimaven</id>
		<name>aliyun maven</name>
		<url>http://maven.aliyun.com/nexus/content/groups/public/</url>
		<mirrorOf>central</mirrorOf>        
	  </mirror>
	</mirrors>
  
	  <profiles>
		  <profile>
			  <id>default</id>
			  <repositories>
		  <repository>
			  <id>onebeartoe</id>
			  <name>onebeartoe</name>
			  <url>https://repository-onebeartoe.forge.cloudbees.com/snapshot/</url>
		  </repository>
	  </repositories>
	  <dependencies>
		  <dependency>
			  <groupId>edu.uci.ics</groupId>
			  <artifactId>crawler4j</artifactId>
			  <version>4.4-SNAPSHOT</version>
		  </dependency>
	  </dependencies>
			  <pluginRepositories>
				  <pluginRepository>
					  <id>nexus</id>
					  <name>local private nexus</name>
					  <url>http://maven.oschina.net/content/groups/public/</url>
					  <releases>
						  <enabled>true</enabled>
					  </releases>
					  <snapshots>
						  <enabled>false</enabled>
					  </snapshots>
				  </pluginRepository>
			  </pluginRepositories>
		  </profile>
	  </profiles>
  </settings>









  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
`from_crawler`是Scrapy中的一个类方法,用于创建一个新的Spider实例。它是Scrapy中的一个特殊方法,因为它可以访问Scrapy的核心组件和配置,例如Crawler对象、Settings对象和Signal manager。 `from_crawler`有一个默认的实现,它将Crawler对象、Settings对象和其他参数传递给Spider的构造函数。您可以重写这个方法来自定义Spider的初始化过程,例如添加信号处理程序或在Spider创建时执行其他任务。 以下是一个常见的使用`from_crawler`方法的示例,它在Spider创建时添加了一个信号处理程序,以便在Spider完成时关闭数据库连接: ```python from scrapy import signals class MySpider(scrapy.Spider): name = 'myspider' def __init__(self, *args, **kwargs): super(MySpider, self).__init__(*args, **kwargs) self.connection = None @classmethod def from_crawler(cls, crawler, *args, **kwargs): spider = super(MySpider, cls).from_crawler(crawler, *args, **kwargs) crawler.signals.connect(spider.spider_closed, signal=signals.spider_closed) return spider def spider_closed(self, spider): if self.connection is not None: self.connection.close() def parse(self, response): # 爬虫代码 ``` 在这个例子中,我们定义了一个名为`spider_closed`的方法,它在Spider完成时被调用。我们通过重写`from_crawler`方法来绑定这个方法,以便在创建Spider实例时添加信号处理程序。`spider_closed`方法检查数据库连接是否存在,并在存在时关闭连接。 请注意,`from_crawler`是一个类方法,它需要返回一个新的Spider实例。因此,在实现`from_crawler`方法时,您需要使用`super()`方法调用父类的`from_crawler`方法,然后返回新的Spider实例。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值