艾森merlin-CSDN博客

原创关于scrapy 默认settings的坑

scrapy默认的配置文件settings，里面的配置必须要全大写，不然获取的时候无法获取到，自己由于这个踩了很久的坑啊！！！！！！！！！！以下的是我自己的小程序，配置文件部分代码： MYQL_HOST = '127.0.0.1' MYSQL_DATABASE = 'spiders' MYSQL_USER = 'root' MYSQL_PASSWORD = '123' MYSQL_PORT =...

2019-04-21 23:13:10 785

原创 scrapy，itemloader，add_xpath()选择器返回结果为空

response.body.decode('gbk') loader = YjsLoader(item=jobSyjs(), response=response) # 创建item loader loader.add_xpath('jobCompany', '//div[@class="main mleft"]//h1/text()') load...

2019-04-19 12:00:04 862 4

原创求解：scrapy 的回调函数，在parse中先把当前页面列表中每一项遍历，该页结束跳转到下一页，但是执行结果是我只得到了第一页的爬取结果

def parse(self, response): # print(response.text) uri = 'https://www.liepin.com' h3List = response.css('h3') print(len(h3List)) del h3List[len(h3List) - 3:len(h3List)] print(le...

2019-04-08 10:29:49 1038 1

原创 python Scrapy Itempipline 到底实在什么时候被调用？

python Scrapy Itempipline 到底实在什么时候被调用最近在写毕设，用到了Scrapy ，爬取一个url的时候，dubug能执行自定义的PipLine，把一条item存到数据库，但是当我爬取多个url时，发现，要等到start_url中的url全部爬取完毕才会最后去执行保存到数据库的操作（也即是pipline里的），执行过程中刷新数据库不显示新的数据，所有当我开始知道Scr...

2019-04-07 21:17:04 284