实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来
PS注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步!
0 环境搭建
MacBook Air (13-inch, 2017)
CPU:1.8 GHz Intel Core i5
RAM:8 GB 1600 MHz DDR3
IDE:anaconda3.6 | jupyter notebook
Python版本:Python 3.6.5 :: Anaconda, Inc.
1 安装scrapy
过程在参考链接中,我只说与上面不一致的地方
pip install scrapy
遇到报错,无法调用gcc*解决方案:mac自动弹出安装gcc提示框,点击“安装”即可
安装成功,安装过程中,终端打印出“distributed 1.21.8 requires msgpack, which is not installed.”
解决方案:
conda install -c anaconda msgpack-python
pip install msgpack
2 新建项目
scrapy startproject www_zhipin_com
可以通过 scrapy -h 了解功能
源码文件关系
tree这个命令挺好用,微软cmd中自带,Python没有自带的,可以参考网上代码,自己写一个玩玩。
3 定义要抓取的item
与源代码基本一致
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class WwwZhipinComItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
pid = scrapy.Field()
positionName = scrapy.Field()
positi