课程学习笔记,150讲轻松搞定Python网络爬虫
https://edu.csdn.net/course/detail/24756
我为什么要学习爬虫?
因为爬虫容易学啊,学会了非常实用。几行代码抓堆图片和小说,不要太好用。
还有个原因,学习爬虫让我可以更了解Web技术。
作为一个Web开发者,网站防爬是你必须要修炼的功课。
不懂爬虫,你怎么能开发出安全的网站。
不懂爬虫,小白都可以分分钟把你的网站数据抓光!
不懂爬虫,你不会知道各种验证码分分钟破解!
不懂爬虫,你不会知道定制如此简单,城市模拟,终端模拟,随便模拟几十万设备,轻松搞定!
不懂爬虫,你不可能在网站访问中过滤爬虫访问,找到真正的用户!
不懂爬虫,你写的非法爬虫,可能让你吃Lao(牢)Fan(饭)!
。。。。。
哈哈哈,反正我学了,收获很多。这都是听老师讲的。
我买了学习会员,好多课程任意学 Y(^o^)Y
刚开始学,练习把一个网页的图片下载下来,做成了一个pdf收藏。有50多张图片,如果一个一个手动另存好麻烦,用python几行代码就搞定了。
这个网页用了ua和refer防爬,防爬手段比较初级,课程里有讲到。
import requests
from bs4 import BeautifulSoup
url = 'http://www.360doc.com/content/17/1209/09/5624718_711465669.shtml'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
'referer':'http://www.360doc.com/'}
r = requests.get(url.strip(),headers=headers)
soup = BeautifulSoup(r.content, 'html.parser')
urls = [row['src'] for row in soup.find(id='articlecontent').find_all('img')]
for i,url in enumerate( urls):
r = requests.get(url.strip(),stream=True,headers=headers)
with open("%s.jpg"%i, "wb") as fd:
fd.write(r.content)
课程后面还有多线程爬虫、JS加密解密、字体反爬识别、分布式爬虫等技能等待我去学习,咱们下次见。