首先推荐几个 必须要掌握的类库
Requests: HTTP for Humans
它是以这么一句话介绍自己的,为人类使用的HTTP库
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html 中文文档
Beautifulsoup
用Beautiful Soup解析网站源代码 代替正则
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 中文文档
开发环境:Mac
IDE:PyCharm (个人感觉非常好用)
游览器:Safari
第一步 我们进行最简单的爬虫 我选择的目标是 糗事百科 https://www.qiushibaike.com/text/
我们所需要的 就是 红框里这些文字 其余乱七八糟的广告 我们压根也不用 怎么办呢? Safari游览器中 右键点击 检查元素