个人知识点总结

最新推荐文章于 2022-08-31 09:44:25 发布

Posierd

最新推荐文章于 2022-08-31 09:44:25 发布

阅读量127

点赞数

分类专栏：知识点总结

本文链接：https://blog.csdn.net/qq_44779863/article/details/105155710

版权

知识点总结专栏收录该内容

4 篇文章 0 订阅

订阅专栏

'''
1. url headers 参数确定

URL:
    如果目标网址是静态的网页，那就直接确定是他
    遇到 ajax 异步加载  需要通过 Network 中   xhr  来通过抓包获取数据
    例如关键字： 梨视频 糖堆等案例
Headers:
    这个不多说了


2.关于请求方式
我用的最多的 还是 get  请求 ，还有一个没有怎么学到post（就pass）
常用的第三方库   requests
get请求携带的 常见参数：
    url=目标地址，headers=请求头，proxies=ip代理，tomeout=超时设置

3.解析数据：
 注意返回数据的编码格式
 万能编码符
  r = requests.get(link,headers=headers).text
  r.encoding = r.apparent_encoding

用到的库：re       bs4      xpath      parsel（xpath的老大哥？）  json

3.1
库名：re
 也就是正则 了解的不多 常用规则 (.*?) 匹配所有括号里的内容    （.*?） 匹配所有括号里的数字
 import   re   为导入方法    不需要进行数据转换，re.findall(规则,目标（返回相应提的html代码），re.S(一种模式，关于换行))
 返回的数据结果为 列表 数据类型
 关键字： 小说  一类的案例

（3.2）
库名 bs4   通过 pip  install  bs4
调用方法   from bs4 import BeautifulSoup
需要进行数据转换
   html = resp.text
   soup = BeautifulSoup(html,'html.parser')

（3.2.1）
soup.find_all   用过确定目标数据  html标签 class来确定数据
返回的数据结果为 列表 数据类型
关键字：房源信息—郑州   房源信息—北京，猫眼等案例

(3.2.2)
soup.select（当中数据为 copy—copy selector）
返回的数据结果为 列表 数据类型
关键字：当当电子书  京东汉服


4.
库名：xpath  通过  pip install  lxml
调用方法  from  lxml import etree
数据转换  html = etree.HTML(r.text)
用法（层层递增的到达目标数据）
返回的数据结果为 列表 数据类型
关键字 ：天堂图片 ，妹子图—def方法，必应壁纸—def方法


5.
库名：parsel  通过  pip install   parsel
调用方法 import  parser
 数据转换
 reapnse = requests.get(url,headers=headers)
 html = parsel.Selector(reapnse.text)
 用法  html.xpath().extract()
（层层递增的到达目标数据）
返回的数据结果为 列表 数据类型
 关键字：美女手机壁纸，贴吧美女

6.
库名：json   用来处理 json 数据类型的库 而不是html 代码
调用  import  json
数据转换
    resp_html = requests.get(link,headers=headers).text
    html = json.loads(resp_html)
此时可以进行 re 等数据提取的方法来提取需要的数据
关键字：梨视频，荣耀英雄，六房短视频，果壳问答

4.数据保存
本地的 txt   png  json   不多解释
调用全局变量到某个函数里

关于  xlsx 格式  import openpyxl
关键字  房源信息—郑州，房源信息——北京

关于  .csv  格式   import csv
关键字   豆瓣电子书排行信息获取
'''

Posierd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
个人知识点总结

'''1. url headers 参数确定URL: 如果目标网址是静态的网页，那就直接确定是他遇到 ajax 异步加载需要通过 Network 中 xhr 来通过抓包获取数据例如关键字：梨视频糖堆等案例Headers: 这个不多说了2.关于请求方式我用的最多的还是 get 请求，还有一个没有怎么学到post（就pass）常...
复制链接

扫一扫

专栏目录