最近简单学习了一点爬虫,为此做一个小的总结,还望批评指正
Python爬虫总结
检查是否安装成功
- python
- python
- urllib
- from urllib.request import urlopen
- BeautifulSoup4
- from bs4 import BeautifulSoup
存储数据到MySQL
- 通过pip安装pymysql
- pip install pymysql
- 通过安装文件
- python set.py install
备注:
下载源码(github-master)->解压->Cmd->cd 到setup.py所在文件夹下->运行此文件夹即可
模拟真实浏览器
- 携带User-Agent头
- req = request.Request(url)
- req.add_header(key,value)
- resp = request.urlopen(req)
- print(resp.read().decode(“utf_8”))
使用POST
- 导入urllib库下面的parse
- from urllib import parse
- 使用urlen