Python爬虫
爬虫项目仅供个人学习使用
xsping.com
这个作者很懒,什么都没留下…
展开
-
Scrapy爬取ajax加载页面且post提交参数是Request Payload的方法
1. 怎么发起请求scrapy.FormRequest()目前还不支持Payload参数提交方法可以采用request的post方式:scrapy.Request(url, headers=headers, body=json.dumps(payload_data), callback=self.parse, method='POST')json.dumps():将dict格式转化成str格式2. Response返回来的一般是json数据格式,或者列表形式,亦或者数据中插入了一些字符,比如:原创 2021-03-12 15:05:11 · 487 阅读 · 0 评论 -
采用scrapy对秀动网演出信息爬取
爬取结果mongodb数据库:spider文件分析秀动网站页面的布局,准备爬取我们需要的信息。没有粘贴代码,简单讲解一下爬取上海所有的演出信息。parse方法里面定义页面演出信息的列表:datas = response.xpath("/html/body/div[4]/ul/li")循环遍历这个列表,可以取到我们需要的剧目名称和详情页的urlitem['show_name'] = data.xpath('a/@title').extract()[0]url = data.xpath(原创 2021-03-08 14:56:35 · 1055 阅读 · 8 评论 -
通过scrapy爬取前程无忧招聘数据
创建项目:scrapy startproject ScrapyDemocd ScrapyDemoscrapy genspider bigqcwy msearch.51job.comitems.py文件添加爬取信息:class ScrapydemoItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # 职位名称 name = scrapy.Fi原创 2021-01-24 15:20:44 · 847 阅读 · 0 评论 -
通过selenium爬取新浪微博
from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.action_chains import ActionChainsimport csvimport PIL.Image as imagefrom PIL import Image, ImageEnhanceimport time, re, randomimport原创 2021-01-24 15:04:18 · 370 阅读 · 0 评论 -
scrapy_redis分布式爬虫与scrapyd部署爬虫
仅供个人学习,如有侵权联系删除spider文件:# -*- coding: utf-8 -*-"""scrapy_redis实现分布式爬虫scrapyd部署"""import scrapyfrom pachong8.items import Pachong8Itemfrom scrapy_redis.spiders import RedisCrawlSpiderclass LianjiaSpider(scrapy.Spider):#class LianjiaSpider(Redis原创 2021-01-23 17:34:05 · 266 阅读 · 0 评论 -
使用Scrapy框架爬取链家数据
仅供个人学习,如有侵权联系删除spider文件:lianjia.py# -*- coding: utf-8 -*-import scrapyfrom pachong6.items import Pachong6Itemclass LianjiaSpider(scrapy.Spider): name = 'lianjia' allowed_domains = ['m.lianjia.com'] start_urls = ['https://m.lianjia.com/bj/原创 2021-01-23 17:04:10 · 446 阅读 · 2 评论 -
Scrapy爬取知乎数据并用scrapy_redis搭建分布式
知乎网站分析1、个人资料页面url为:https://www.zhihu.com/people/…2、分析出需要爬取内容的xpath创建爬虫使用crawl模板生成spiderscrapy startproject pachong7cd zhihuscrapy genspider -t crawl zhihu zhihu.com源码仅供个人学习使用,禁止爬取个人隐私、商业信息等items.py定义需要爬取的字段# -*- coding: utf-8 -*-import scrapy原创 2021-01-23 16:14:56 · 248 阅读 · 1 评论