scrapy爬虫之前程无忧示例

稳瑜仙女

于 2020-09-13 20:42:34 发布

阅读量269

点赞数

文章标签： python

本文链接：https://blog.csdn.net/j_l_sheng/article/details/108567134

版权

scrapy爬虫之前程无忧示例

安装scrapy

具体教程请参考以下文章：
https://blog.csdn.net/j_l_sheng/article/details/106104208

在cmd中键入scrapy，如下图
进入目标目录，新建一个工程文件夹，输入命令：scrapy startproject 项目名
进入刚刚建立好的项目文件夹
创建爬虫，输入命令：scrapy genspider 爬虫名域名

于是就创建了一个：爬虫名.py文件，如下图
在IDE环境中打开该文件，如下图所示
用目标网址覆盖源代码（此处需要用整个网址），修改后代码如下图所示

爬取第一页到第2000页的数据的url代码如下：

start_urls = [f'https://search.51job.com/list/000000,000000,0000,00,9,99,%2B,2,{page}.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='for page in range(1,2001)]

分离出详情页的网址
通过分析详情页的源码写出爬代码
以字典的形式输出
打印爬取结果

结果如下图所示：

稳瑜仙女

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫之前程无忧示例

scrapy爬虫之前程无忧示例安装scrapy具体教程请参考以下文章：https://blog.csdn.net/j_l_sheng/article/details/106104208在cmd中键入scrapy，如下图进入目标目录，新建一个工程文件夹，输入命令：scrapy startproject 项目名进入刚刚建立好的项目文件夹创建爬虫，输入命令：scrapy genspider 爬虫名域名于是就创建了一个：爬虫名.py文件，如下图在IDE环境中打开
复制链接

扫一扫