在正式学习爬虫之前,首先需要先了解一些基本知识。
整理了几个点:
1.注意爬虫的合法性,不违反Robots协议
(例如打开“www.taobao.com/robots.txt” 即可查看淘宝网的Robots协议,如打不开则在浏览器上直接输入地址)
2.爬虫的三个流程
获取网页->解析网页->储存数据
3.常用的几个python库
urllib/requests/selenium
re/BeautifulSoup/lxml
csv/MySQLdb
4.新手可以学习的书籍
《Python网络爬虫从入门到实战》
《Python3网络爬虫开发实战》
python网络爬虫(新手第一篇)
最新推荐文章于 2024-09-14 17:35:17 发布