假如当你看到这篇文章的时候你已经学会了python的基础知识 ,假设你也已经安装好了环境变量等.那么还说什么,让我们走入爬虫的世界,我爱学习,学习爱我.
爬虫可以简单的从这三步出发
抓取网页, 分析页面,和存储数据
当我们写程序的时候,需要用代码来实现模拟浏览器向服务器发出请求,所有我们需要了解http知识,以及相应的Python库.
python自带了一些库,但是不够,需要安装一下额外的
linux环境下
- pip install requests
以及一些wheel,selenium,ChromeDriver
其中linux 中一路执行
sudo mv geckodriver /usr/bin
vi ~/.profile
export PATH=”$PATH:/usr/local/geckodriver”
source ~/.profile
配置完成后,就可以在命令行下直接执行geckodriver命令测试:
geckodriver
然后运行以下代码
from selenium import webdriver
browser = webdriver.Firefox()
如果运行之后弹出一个空白页面,就没问题了
如何爬去网页,其实就是根据URL来获取它的网页信息
比如
import urllib.request
response = urllib.request.urlopen("http://www.baidu.com")
print(response.read())
在python3.0以上,urllib2被urllib.request所取代