1.不需要单独下载Python,直接安装anaconda就可以了(Win10的系统需要以管理员模式运行安装软件,否则会出现权限问题),通过anaconda可以下载安装全部的Python组件
2.在anaconda中下载组件
①打开Anaconda Prompt(Win10的系统需要以管理员模式运行安装软件,否则会出现权限问题)
②下载scrapy:conda install scrapy
3.Pycharm管理anaconda
Configure->Settings->Project Interpreter->右侧下菜单->show all->右侧“+”->add local->System Interpreter
4.Scrapy开发
①配置Scrapy的环境变量
②在文件夹中生成Scrapy框架代码(文件路径不能包含中文),按住shift+右键进入命令行模式,输入命令
scrapy startproject jobscrawler
其中jobscrawler为创建的项目名称
③使用PyCharm打开工程
④在spiders文件夹下创建自己的爬虫文件
⑤编写爬虫爬网页的业务逻辑
列表页爬取
招聘详情页爬取
⑥使用pipeline保存爬取的数据
保存到Excel中
保存到MySQL中
5.安装jieba分词
在anaconda prompt下执行
pip install jieba