'''
1. url headers 参数确定
URL:
如果目标网址是静态的网页,那就直接确定是他
遇到 ajax 异步加载 需要通过 Network 中 xhr 来通过抓包获取数据
例如关键字: 梨视频 糖堆等案例
Headers:
这个不多说了
2.关于请求方式
我用的最多的 还是 get 请求 ,还有一个没有怎么学到post(就pass)
常用的第三方库 requests
get请求携带的 常见参数:
url=目标地址,headers=请求头,proxies=ip代理,tomeout=超时设置
3.解析数据:
注意返回数据的编码格式
万能编码符
r = requests.get(link,headers=headers).text
r.encoding = r.apparent_encoding
用到的库:re bs4 xpath parsel(xpath的老大哥?) json
3.1
库名:re
也就是正则 了解的不多 常用规则 (.*?) 匹配所有括号里的内容 (.*?) 匹配所有括号里的数字
import re 为导入方法 不需要进行数据转换,re.findall(规则,目标(返回相应提的html代码),re.S(一种模式,关于换行))
返回的数据结果为 列表 数据类型
关键字: 小说 一类的案例
(3.2)
库名 bs4 通过 pip install bs4
调用方法 from bs4 import BeautifulSoup
需要进行数据转换
html = resp.text
soup = BeautifulSoup(html,'html.parser')
(3.2.1)
soup.find_all 用过确定目标数据 html标签 class来确定数据
返回的数据结果为 列表 数据类型
关键字:房源信息—郑州 房源信息—北京,猫眼等案例
(3.2.2)
soup.select(当中数据为 copy—copy selector)
返回的数据结果为 列表 数据类型
关键字:当当电子书 京东汉服
4.
库名:xpath 通过 pip install lxml
调用方法 from lxml import etree
数据转换 html = etree.HTML(r.text)
用法(层层递增的到达目标数据)
返回的数据结果为 列表 数据类型
关键字 :天堂图片 ,妹子图—def方法,必应壁纸—def方法
5.
库名:parsel 通过 pip install parsel
调用方法 import parser
数据转换
reapnse = requests.get(url,headers=headers)
html = parsel.Selector(reapnse.text)
用法 html.xpath().extract()
(层层递增的到达目标数据)
返回的数据结果为 列表 数据类型
关键字:美女手机壁纸,贴吧美女
6.
库名:json 用来处理 json 数据类型的库 而不是html 代码
调用 import json
数据转换
resp_html = requests.get(link,headers=headers).text
html = json.loads(resp_html)
此时可以进行 re 等数据提取的方法来提取需要的数据
关键字:梨视频,荣耀英雄,六房短视频,果壳问答
4.数据保存
本地的 txt png json 不多解释
调用全局变量到某个函数里
关于 xlsx 格式 import openpyxl
关键字 房源信息—郑州,房源信息——北京
关于 .csv 格式 import csv
关键字 豆瓣电子书排行信息获取
'''
个人知识点总结
最新推荐文章于 2022-08-31 09:44:25 发布