- 博客(7)
- 收藏
- 关注
原创 一个scrapy项目做多个spider数据采集
一、scrapy多个spider爬取数据我们知道爬虫刚开始的时候,通过start_requests(self)方法把所有的url一次性传给调度器,后面的事情就是由调度器来完成的start_requests(self):方法的代码如下 在第7行到10行然后我提醒一下,这个是我一个spider,不是多个spidr我把截图拿出来是因为要让你们知道,我在讲的是哪一个spider为什么要多个spider呢?答:一个spider就只能进行一个类型的链接的抓取,比如翻页操作,如果是其他的链接就不能抓取了,可
2021-11-19 17:31:16 2275 1
原创 爬虫scrapy学完基础总结案例(非常详细)
爬虫scrapy总结笔记1.声明一下:提醒一下,爬虫有风险,我在前几天用学校的ip做爬虫测试,导致人家服务器nginx报错,吓死人了,所以爬虫太快相当于Ddos攻击,要坐牢的!!猫眼电影知道我们很多学生都是拿他做测试,他的反爬措施就是让我们手动拉滑块,防止我们太快,已经是非常良心的了,一般一个ip整站抓取,只要不是太快,一般可以完成,但是就是别快,快了就是给你封ip然后我继续提醒一下:我对爬虫的运行方式已经非常的清楚写的了,这个是我写的总结性笔记1.创建项目#创建爬虫项目scrapy star
2021-11-13 19:10:32 1579 2
原创 python文件名批量处理(超详细,看完估计你也会)
1.需要用到python中的os库import os #必须导入哦!!2.批量处理步骤(文字说明)1)第一步:先找到你要处理的文件夹 文字说明:因为文件的\是可以和其他的字符组成转义字符,所以我在第一个方法,在双引号前面加了一个rpath = r"C:\Users\chenzhou\Desktop\MouseWithoutBorders"2)第二步:把这个文件夹里面的数据全部写到列表里面filename_list = os.listdir(path)#存入列表3)第三步进行fo
2021-05-22 20:21:08 1795
原创 Django入门-02(Django初始化)
一,Django初始化结合之前的文章,我们是没有完成初始化,执行python manage.py runserver的时候,会报错,现在我们来解决这个问题。文章目录一,Django初始化1、查看项目路径2、修改步骤这样我们就完成了开始执行python manage.py runserver1、查看项目路径我们这里只要设置一下那个settings就可以了2、修改步骤我现在做的是修改这个Django的时区,我们之前为什么会报错是因为Django的时区不准确才会出现这种原因如果有人找不到
2021-03-28 23:01:49 641 1
原创 Django入门-01(超细安装教程)
Django入门初识如果对你有帮助,希望能你能点个关注,表示你对作者的支持!!谢谢文章目录Django入门初识前言一、安装虚拟环境安装一.安装virtualenvwrapper(重要)二.但是需要注意的是,python版本要对应相应的Django版本(重要,版本对应即可)三.创建虚拟环境(重要)1.先在电脑建立一个文件夹(这个就是虚拟环境的位置)2.进入Django文件夹(有出现python36这个文件夹说明创建虚拟环境成功)3.我们需要激活activate(在Django/python36/Scri
2021-03-27 00:24:38 658 10
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人