梦森(:-CSDN博客

原创 arcpy map映射的例子

【代码】arcpy map映射的例子。

2023-03-28 08:28:48 226

原创爬虫--7Selenium webdriver控制浏览器

一、使用Selenium库调用浏览器必须有一个webdriver驱动文件，版本要与本地浏览器同步谷歌Chrome各版本驱动的下载地址http://chromedriver.storage.googleapis.com/index.html火狐Firefox浏览器对应各个版本驱动下载地址：https://github.com/mozilla/geckodriver/releases/二、手动创建一个存放浏览器驱动的目录，如： F...

2021-09-24 15:02:20 195

原创爬虫框架scrapy--6middlewares下载中间件（动态更换ip和USER_AGENT）

一、middlewares下载中间件的基本介绍 1、使用方法∶编写一个Downloader Middlewares和我们编写一个pipeline 一样，定义一个类，然后在 setting中开启 2、Downloader Middlewares默认的方法∶ a、process_request(self, request, spider):...

2021-09-24 14:31:19 180

原创爬虫框架scrapy--5模拟登陆

一、利用已有的cookies:通过在spiders下的爬虫文件中重写start_requests方法，在回调函数中提取数据class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.com'] start_urls = ['http://baidu.com/'] # 重写start_requests方法 def start_requests(self):

2021-09-23 19:04:22 103

原创爬虫框架scrapy--4CrawISpider的使用（自动提取url）

创建项目后，cd到项目文件夹，终端输入以下命令创建CrawISpider类爬虫：scrapy genspider -t crawl itcast（项目名） itcast.cn（域名）class CfSpider(CrawlSpider): name = 'cf' allowed_domains = ['circ.gov.cn'] start_urls = ['http://www.circ.gov.cn/web/site0/tab5240/module14430/p.

2021-09-23 17:24:46 260

原创爬虫框架scrapy--3pipelines通道的使用

在pipelines通道中可以对不同来源的数据进行处理和保存，方法如下：1、在settings中找到如下代码段并进行修改# Configure item pipelines# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html#取消下面注释开启PIPELIN通道，#ITEM_PIPELINES = {#数字300代表优先级，数字越小越先调用# 'myFistScrapy.pipelines.Myfist

2021-09-23 11:51:34 196

原创爬虫框架scrapy--2入门使用

在项目下spider文件夹中找到创建的爬虫实例，import scrapyclass ItcastSpider(scrapy.Spider): name = "itcast" allowed_domains = ["qiushibaike.com"]#域名限制 start_urls = ("https://www.qiushibaike.com/text",)#需要爬取的第一个网页 def parse(self, response):#在这个函数中可以对爬取的网页做

2021-09-23 11:33:55 66

原创爬虫框架scrapy--1环境搭建及项目创建基本步骤

1、安装scrapy前，需先下载与python对应的wisted，下载网址如下：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted2、将下载的文件复制到python的Scripts目录下3、运行cmd,切到盘符下，用下面命令进行安装pip3 install 文件名4、安装scrapy，用pip命令或者在pycharm设置中安装5、创建项目需要在terminal（终端）输入命令scrapy startproject 项目名称6、进入.

2021-09-23 10:56:39 432

mengsenzhimeng的博客