pyton爬虫打造搜索引擎的学习心得
1.创建虚拟机:virtualenv scrapytest
2.启动虚拟机:进入虚拟机:cd scrapytest然后cd Scripts然后执行activate.bat,如果退出虚拟机则执行deactivate.bat
3.用python3.5创建虚拟机:在虚拟环境scrapytest下Scripts下运行virtualenv -p D:\WorkSpace\python3.5.3\python.exe scrapypy3
4.创建python项目:在进入虚拟机的情况下,执行scrapy startproject ArticleSpider创建python项目
5.镜像:https://pypi.douban.com/simple/
6.安装django:先下载压缩包,解压到与python同目录下,进入django目录,执行命令:python setup.py
7.创建python项目:在进入虚拟机的情况下,执行scrapy startproject ArticleSpider创建python项目
8.爬取网站:进入项目根目录,然后执行scrapy genspider jobbole blog.jobbole.com
9.启动spider:例如启动jobbole,需要进入项目根目录,然后安装pypiwin32,执行命令pip install pypiwin32,然后执行scrapy crawl jobbole
10.要在命令行爬取数据,例如爬取http://www.jobbole.com/