150讲轻松搞定Python网络爬虫 - 课程学习笔记

最新推荐文章于 2021-08-28 16:56:44 发布

flybirding10011

最新推荐文章于 2021-08-28 16:56:44 发布

阅读量353

点赞数

文章标签： python

本文链接：https://blog.csdn.net/cpongo1/article/details/117752374

版权

课程学习笔记，150讲轻松搞定Python网络爬虫

https://edu.csdn.net/course/detail/24756

我为什么要学习爬虫？

因为爬虫容易学啊，学会了非常实用。几行代码抓堆图片和小说，不要太好用。

还有个原因，学习爬虫让我可以更了解Web技术。

作为一个Web开发者，网站防爬是你必须要修炼的功课。

不懂爬虫，你怎么能开发出安全的网站。

不懂爬虫，小白都可以分分钟把你的网站数据抓光！

不懂爬虫，你不会知道各种验证码分分钟破解！

不懂爬虫，你不会知道定制如此简单，城市模拟，终端模拟，随便模拟几十万设备，轻松搞定！

不懂爬虫，你不可能在网站访问中过滤爬虫访问，找到真正的用户！

不懂爬虫，你写的非法爬虫，可能让你吃Lao(牢)Fan(饭)！

。。。。。

哈哈哈，反正我学了，收获很多。这都是听老师讲的。

我买了学习会员，好多课程任意学 Y(^o^)Y

刚开始学，练习把一个网页的图片下载下来，做成了一个pdf收藏。有50多张图片，如果一个一个手动另存好麻烦，用python几行代码就搞定了。

这个网页用了ua和refer防爬，防爬手段比较初级，课程里有讲到。

import requests
from bs4 import BeautifulSoup
url = 'http://www.360doc.com/content/17/1209/09/5624718_711465669.shtml'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
'referer':'http://www.360doc.com/'}
r = requests.get(url.strip(),headers=headers)
soup = BeautifulSoup(r.content, 'html.parser')
urls = [row['src'] for row in soup.find(id='articlecontent').find_all('img')]
for i,url in enumerate( urls):
    r = requests.get(url.strip(),stream=True,headers=headers)
    with open("%s.jpg"%i, "wb") as fd:
        fd.write(r.content)

课程后面还有多线程爬虫、JS加密解密、字体反爬识别、分布式爬虫等技能等待我去学习，咱们下次见。