150讲轻松搞定Python网络爬虫 - 课程学习笔记

 课程学习笔记,150讲轻松搞定Python网络爬虫

https://edu.csdn.net/course/detail/24756

我为什么要学习爬虫?

因为爬虫容易学啊,学会了非常实用。几行代码抓堆图片和小说,不要太好用。

还有个原因,学习爬虫让我可以更了解Web技术。

作为一个Web开发者,网站防爬是你必须要修炼的功课。

不懂爬虫,你怎么能开发出安全的网站。

不懂爬虫,小白都可以分分钟把你的网站数据抓光!

不懂爬虫,你不会知道各种验证码分分钟破解!

不懂爬虫,你不会知道定制如此简单,城市模拟,终端模拟,随便模拟几十万设备,轻松搞定!

不懂爬虫,你不可能在网站访问中过滤爬虫访问,找到真正的用户!

不懂爬虫,你写的非法爬虫,可能让你吃Lao(牢)Fan(饭)!

。。。。。

哈哈哈,反正我学了,收获很多。这都是听老师讲的。

 

我买了学习会员,好多课程任意学 Y(^o^)Y

 

 

刚开始学,练习把一个网页的图片下载下来,做成了一个pdf收藏。有50多张图片,如果一个一个手动另存好麻烦,用python几行代码就搞定了。

这个网页用了ua和refer防爬,防爬手段比较初级,课程里有讲到。

import requests
from bs4 import BeautifulSoup
url = 'http://www.360doc.com/content/17/1209/09/5624718_711465669.shtml'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
'referer':'http://www.360doc.com/'}
r = requests.get(url.strip(),headers=headers)
soup = BeautifulSoup(r.content, 'html.parser')
urls = [row['src'] for row in soup.find(id='articlecontent').find_all('img')]
for i,url in enumerate( urls):
    r = requests.get(url.strip(),stream=True,headers=headers)
    with open("%s.jpg"%i, "wb") as fd:
        fd.write(r.content)

课程后面还有多线程爬虫、JS加密解密、字体反爬识别、分布式爬虫等技能等待我去学习,咱们下次见。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

flybirding10011

谢谢支持啊999

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值