python 爬虫学习

爬虫写作的核心思想就是
网络是个法外之地

所有的网站都是api 把网站当作api来写

在这里插入图片描述
第一步 Requests(robots.txt 防止看到一些恶心的东西)
爬取(模拟人去点击)

第二步
Beautiful Soup
解析页面

第三步
RE
正则表达式提取关键信息

在这里插入图片描述
request:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

专门与异常打交道
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
#北京理工大学的主页
在这里插入图片描述
r=requests.head
SyntaxError: invalid syntax

r=requests.he
SyntaxError: invalid syntax
r=requests.head(‘http://httpbin.org/get’)
r.headers
{‘Date’: ‘Mon, 13 Jul 2020 19:23:57 GMT’, ‘Content-Type’: ‘application/json’, ‘Content-Length’: ‘307’, ‘Connection’: ‘keep-alive’, ‘Server’: ‘gunicorn/19.9.0’, ‘Access-Control-Allow-Origin’: ‘*’, ‘Access-Control-Allow-Credentials’: ‘true’}
r.text
‘’
在这里插入图片描述

try 与except 能够保证异常能够处理
在这里插入图片描述
在这里插入图片描述
搜索引擎也是爬虫
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
正则表达式:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
![

在这里插入图片描述

](https://img-blog.csdnimg.cn/20200718014738468.png)

亚马逊:
https://item.jd.com/2967929.html

在这里插入图片描述

import requests kv={’ wd’:’ Python’}
r=requests. get(“http://www. baidu. com/s”, params=kv)

中国大字
网络图片的爬取
网络图片链接的格式:
http://www.example.com/picture.jpg
国家地理:
http://www.nationalgeographic.com.cn/
选择一个图片Web页面:
http://www.nationalgeographic.com.cn/photography/
photo_of_the_day/3921.html

import requests import os ur1=“http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg”
root=“D://pics//”
path=root+url.split(/)[-1]
try:if not os.path.exists(root):os.mkdir(root)
if not os.path.exists(path):r=requests.get(url)
with open(path,‘wb’)as f:f.write(r.content)
f.close()
print(“文件保存成功”)
else:print(“文件已存在”)except:print(“爬取失败")

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qq_39305263

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值