经常有需求说需要爬取某某网站的某些数据,因为python的包最多的,首先尝试使用python爬~便有了本文
有了python爬网页爬图这项技能,不光能爬数据,爬图,,,嗯~
建议大家在法律范围内做爬虫,毕竟命令是领导下的,锅却要我们来背~
python基本配置
安装pip
通过pip我们可以很方便的通过包名安装其他的python包。在Python 2 >=2.7.9 or Python 3 >=3.4 中已经内置了pip。可以使用如下命令查看是否已安装pip。
python -m pip --version
# output: pip 18.0 from C:\Users\lenovo\AppData\Local\Programs\Python\Python36\lib\site-packages\pip (python 3.6)
如果没有,可以通过下载get-pip.py,并运行如下命令安装:
python get-pip.py
我们可以使用pip安装其他包,如下文需要使用的BeautifulSoup
需要我们安装bs4
pip3 install bs4
爬虫常用包
requests
requests
是一个处理URL资源很方便的包。
import requests
r = requests.get('https://juejin.cn')
print(r)
print(r.status_code)
print(r.text)
输出结果:
<Response [200]>
200
<!doctype html>
<html data-n-head-ssr lang="zh" data-n-head="%7B%22lang%22:%7B%22ssr%22:%22zh%22%7D%7D">
<head >
<title> 代码不止</title><meta data-n-head="ssr" charset="utf-8"><meta data-n-head="ssr" name="viewport" content="width=device-width, initial-scale=1, user-scalable=no, viewport-fit=cover"><meta data-n-head="ssr" name="apple-itu......
req