![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
郭立影
这个作者很懒,什么都没留下…
展开
-
return 调用加参数 和不加参数区别
加参数def test(m): a =1 return a+mdef test2(): m = 5 s = test(m) b=2 print(s+b)test2()不加参数def test(): a =1 return adef test2(): s = test() b=2 print(...原创 2020-03-31 16:37:33 · 401 阅读 · 0 评论 -
scrapy-redis 分布式爬虫原理 及 与scrapy不同
Scrapy 是一个通用的爬虫框架,但是不支持分布式Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)scrapy任务调度是基于文件系统,这样只能在单机执行crawl。scrapy-redis将待抓取request请求信息和数据items信息的存取放到redis queue里,使多台服务器可以**同时执行crawl和items...原创 2020-03-25 17:10:17 · 386 阅读 · 0 评论 -
分布式爬虫管理平台Crawlab安装与使用
安装:系统:阿里云centos7这里使用最简单的安装方法,docker安装。先用docker下载crawlab镜像:docker pull tikazyq/crawlab:latest#关于docker常用命令及简介,这篇文章写的很全:#https://blog.csdn.net/javahelpyou/article/details/104587242还需要安装docke...原创 2020-03-13 04:17:12 · 2086 阅读 · 0 评论 -
暑期 ---------0714爬虫
#0716------------'''import csvcsvFile = open("csv test","w+")try: writer = csv.writer(csvFile) writer.writerow(('number','number plus 2','number times 3')) for i in range(10): ...原创 2019-07-18 17:09:43 · 106 阅读 · 0 评论 -
0715----------爬虫
#0715-----------------------------#数据清洗'''from urllib.request import urlopenfrom bs4 import BeautifulSoupimport redef ngrams(input,n): #input = re.sub("\n+","",input) #input = re.sub(" ...原创 2019-07-20 17:57:25 · 75 阅读 · 0 评论 -
0717------------爬虫
test.py#$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$#自己写自己爬'''import requestsparams = {"username":"admin","password":"123"}html = requests.post("http://127.0.0.1:5000/login",data = params)print(...原创 2019-07-21 17:32:36 · 73 阅读 · 0 评论 -
scrapy---简介 、(爬取赶集)
创建scrapy文件C:\Users\dell\PycharmProjects\TestDemo001\TestDemo001>scrapy startproject TestDemo001scrapy genspider -t basic ganji "http://anqing.ganji.com/"scrapy crawl ganji存储csvscrapy cr...原创 2019-07-23 00:33:51 · 118 阅读 · 0 评论 -
爬小说scrapy
bookspider.py# -*- coding: utf-8 -*-import scrapyfrom xiaoshuo.items import XiaoshuoItemclass BookspiderSpider(scrapy.Spider): name = "bookspider" allowed_domains = ["www.biqukan.com"]...原创 2019-07-23 00:39:23 · 124 阅读 · 0 评论