Python爬虫

爬虫能做什么?

  • 采集网络数据
  • 自动化测试
  • 做一些萝莉手动的操作(帮人投票、12306抢票、微信聊天助手-itchat)-有操作浏览器的库去操作浏览器帮我们访问网站
  • 灰产(薅羊毛、发动网络攻击、做水军)

一、安装和配置virtualenvwrapper和virtualenv

当不同项目用到的python版本、依赖包版本不一致时,可以用虚拟环境隔开。

1、windows下安装

pip install virtualenvwrapper-win
pip install virtualenv
#新建虚拟环境(建立后会在第一行显示创建的位置,且会默认进入该虚拟环境)
mkvirtualenv -p C:\Python39\python.exe spider
#退出虚拟环境
deactivate
#列出所有虚拟环境
workon
#进入虚拟环境
workon spider
#进入虚拟环境后查看使用的python版本
python
#删除虚拟环境,只要进入Envs目录删除对于的目录即可

配置虚拟环境到pycharm:setting->project Interpreter->add,添加已存在的evn

修改虚拟环境保存的位置:添加环境变量WORKON_HOME

2、linux下安装

3、mac下安装

二、robots协议

网站的数据并非都可以爬取的,可以爬取的数据都写在网站更目录下的

User-agent:表示爬虫名称

robots.txt文件中,该文件中的Allow表示可以爬取的url

disallow表示不能爬取的路径

未完。。。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值