python爬虫笔记（3）第一个爬虫和xpath

最新推荐文章于 2021-02-20 03:25:19 发布

mittyQAQ

最新推荐文章于 2021-02-20 03:25:19 发布

阅读量296

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_43525209/article/details/107354339

版权

python 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

1.接口解析
2.第三方破解

通用爬虫 -》今日头条谷歌百度
url（网址） -》DNS解析 -》下载网页

聚焦爬虫精准的抓取网页
监控爬虫定时爬虫
url组成：http （http + ssl(安全套接层）） http（超文本传输协议）域名

#已被淘汰
import urllib
#现在常用
import requests
#获取百度的对象
response = requests.get('https://www.baidu.com/')
#返回成功 也就是200
print(response)
#返回页面，但有部分乱码，因为是中文字节
print(response.text)
#转码，在Windows下用gbk，在 unix下用utf-8
print(response.content.decode('gbk'))

返回错误，是gbk错了，就去看网页的Content-Type内容类型，发现是utf-8
在这里插入图片描述
更改之后会返回一小段html

headers = {
#再加上浏览器类型，就会返回详细的html
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}

注意response也要改一下

response = requests.get('https://www.baidu.com/', headers=headers)

利用有道翻译实现翻译的小练习

import requests
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
data = {
    'i': 'f事实上',
    'from': 'AUTO',
    'to': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'salt': '15947810674971',
    'sign': 'd37bff6027e46f0f83745f2f718c156e',
    'ts': '1594781067497',
    'bv': 'c74c03c52496795b65595fdc27140f0f',
    'doctype': 'json',
    'version': '2.1',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_REALTlME'
}
headers ={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}
response = requests.post(url,data=data,headers = headers)
print(response.json())

下载Fiddler，安装证书就可以正常使用了在这里插入图片描述
#：传输类型
Result：传输结果，200为成功
Protocol ：传输协议
Host:地址
URL：域名
body：内容大小
Content-Type：内容的格式类型
Caching:

xpath

根节点：//
节点:/
属性：@
全选：//
例：a/img/@src a下面的img下面的src属性
例：//a/img/@src 全选所有的A标签
例：//img[@class=’‘scrollLoading’’]/@src 全选有这个值class属性的img标签
例：//a[@target="_blank"]/img/@src 在这里插入图片描述

mittyQAQ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫笔记（3）第一个爬虫和xpath

1.接口解析2.第三方破解通用爬虫 -》今日头条谷歌百度url（网址） -》DNS解析 -》下载网页聚焦爬虫精准的抓取网页监控爬虫定时爬虫url组成：http （http + ssl(安全套接层）） http（超文本传输协议）域名#已被淘汰import urllib#现在常用import requests#获取百度的对象response = requests.get(‘https://www.baidu.com/’)#返回成功也就是200print(respon
复制链接

扫一扫

专栏目录