![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
迷路的贝壳儿
专注IT二十年
展开
-
爬虫验证码-手动输入
一般网站登录的时候会有验证码的问题,下面是将验证码下载到本地,手动输入模拟登录。在请求的时候使用会话是为了保证获取的验证码、表单令牌等数据一致 import requests from bs4 import BeautifulSoup headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/...原创 2019-09-06 15:24:18 · 1263 阅读 · 1 评论 -
selenium爬取拉勾网职位招聘信息
selenium爬取拉勾网职位招聘信息 # encoding:utf-8 from selenium import webdriver from lxml import etree from pyquery import PyQuery as pq # 引入显式等待 from selenium.webdriver.support.ui import WebDriverWait from sele...原创 2019-09-10 15:44:44 · 462 阅读 · 0 评论 -
scrapy框架爬取古诗文网的名句
使用scrapy框架爬取名句,在这里只爬取的了名句和出处两个字段。具体解析如下: items.py 用来存放爬虫爬取下来的数据模型,代码如下: import scrapy class QsbkItem(scrapy.Item): content = scrapy.Field() auth = scrapy.Field() piplines.py 将items的模型存储到json...原创 2019-09-11 15:03:53 · 826 阅读 · 0 评论 -
CrawlSpider爬取微信文章
需要使用LinkExtractor和Rule,这两个东西决定爬虫的具体走向 1.allow设置规则的方法,要能够限制在我们想要的url上面,不要和其他的url产生相同的正则表达式即可 2.啥情况下使用follow, 如果在爬取页面的时候需要将当前的url在进行更近,那么就设置为True,否者设置为False 3.啥情况下该指定callback,如果这个url对应的页面为了获取更多的url,并不需要...原创 2019-09-11 18:52:21 · 103 阅读 · 0 评论 -
实现自动登录12306
实现自动登陆的话需要正确的点击图片中的验证码,下面为大家介绍如何自动登录铁路12306,12306登录界面如下所示: 我们在实现过程城中可以借用超级鹰帮助我们实验验证码的点击,首先我们将验证码的图片已截图的形式保存下来,然后我们将截图发送给第三方平台,第三方平台会将我们需要的图片的坐标返回给我们,然后我们对其返回的数据进行处理,然后点击相应的坐标就可以实验登录,当然在此过程中我们需要尽量的模仿人...原创 2019-09-16 13:46:01 · 1335 阅读 · 0 评论 -
scrapy中请求传参+数据持久存储
代码中有详细的注释 # -*- coding: utf-8 -*- import scrapy from movie.items import MovieItem class AllMovieSpider(scrapy.Spider): name = 'all_movie' # allowed_domains = ['4567tv.tv'] start_urls = ...原创 2019-09-17 13:58:11 · 129 阅读 · 0 评论 -
scrapy中间件
# -*- coding: utf-8 -*- # Define here the models for your spider middleware # # See documentation in: # https://docs.scrapy.org/en/latest/topics/spider-middleware.html from scrapy import signals im...原创 2019-09-19 11:09:10 · 189 阅读 · 0 评论 -
scrapy+crawlspider+增量式爬取电影
如果我们要爬去一个网站,而网站的数据又是经常更新的,但是对于爬虫来说,启动爬虫的时候他会认为他爬取的数据是新的,因此,我们需要一个凭证来告诉爬虫这个数据已经存在 movie.py # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders impo...原创 2019-09-19 10:48:53 · 387 阅读 · 0 评论 -
selenium+scrapy
spider.py # -*- coding: utf-8 -*- import scrapy from wy.items import WyItem from selenium import webdriver class WySpiderSpider(scrapy.Spider): name = 'wy_spider' # allowed_domains = ['new...原创 2019-09-19 11:08:06 · 196 阅读 · 0 评论