参考文档
廖雪峰python教程
环境搭建
-MongDB
使用参考:http://www.runoob.com/mongodb/mongodb-tutorial.html
MongDB下载地址:https://www.mongodb.com/download-center/community
Robo下3T载地址:https://robomongo.org/
启动 参考:https://www.cnblogs.com/chenlq/p/6515876.html
cd/d E:\mongoDB\bin
mongob --dbpath E:\mongoDB\data\db
验证是否启动成功:http://127.0.0.1:27017.
-Redis
使用参考:http://www.runoob.com/redis/redis-tutorial.html
Redis下载地址:https://github.com/MicrosoftArchive/redis/releases
RedisDestopManager下载地址:https://github.com/uglide/RedisDesktopManager/releases
启动 参考:https://www.cnblogs.com/chenlq/p/6515876.html
cd/d E:\Redis
redis-server redis.windows.conf
验证是否启动成功:http://127.0.0.1:27017.
-python多版本共存
将python.exe所在位置添入环境变量,复制一份python.exe,并将其命令为python3。
基本库
-Jupyter 使用参考
-Requests
-正则表达式 在线正则表达式测试
-BeautifulSoup
-PyQuery
-Selenium
框架
-PySpider
-Scrapy 中文官方文档
- 快速生成scrapy项目、spiderName文件以及run.py文件批处理代码
-Scrapy从安装到实战框架爬虫Demo| -测试网站| -该教程相应代码|
-小白进阶之Scrapy第一篇| -测试网站| -该教程相应代码|
pipline保存文件|
报错:scrapy提示DEBUG:Filtered offsite request to
参考
原因:request url的域名不能和文件中自己配置的allowed_domains不一致
解决:添加红色部分yield scrapy.Request(url,callback=self.detail,dont_filter=True
)