个人知识点总结

'''
1. url headers 参数确定

URL:
    如果目标网址是静态的网页,那就直接确定是他
    遇到 ajax 异步加载  需要通过 Network 中   xhr  来通过抓包获取数据
    例如关键字: 梨视频 糖堆等案例
Headers:
    这个不多说了


2.关于请求方式
我用的最多的 还是 get  请求 ,还有一个没有怎么学到post(就pass)
常用的第三方库   requests
get请求携带的 常见参数:
    url=目标地址,headers=请求头,proxies=ip代理,tomeout=超时设置

3.解析数据:
 注意返回数据的编码格式
 万能编码符
  r = requests.get(link,headers=headers).text
  r.encoding = r.apparent_encoding

用到的库:re       bs4      xpath      parsel(xpath的老大哥?)  json

3.1
库名:re
 也就是正则 了解的不多 常用规则 (.*?) 匹配所有括号里的内容    (.*?) 匹配所有括号里的数字
 import   re   为导入方法    不需要进行数据转换,re.findall(规则,目标(返回相应提的html代码),re.S(一种模式,关于换行))
 返回的数据结果为 列表 数据类型
 关键字: 小说  一类的案例

(3.2)
库名 bs4   通过 pip  install  bs4
调用方法   from bs4 import BeautifulSoup
需要进行数据转换
   html = resp.text
   soup = BeautifulSoup(html,'html.parser')

(3.2.1)
soup.find_all   用过确定目标数据  html标签 class来确定数据
返回的数据结果为 列表 数据类型
关键字:房源信息—郑州   房源信息—北京,猫眼等案例

(3.2.2)
soup.select(当中数据为 copy—copy selector)
返回的数据结果为 列表 数据类型
关键字:当当电子书  京东汉服


4.
库名:xpath  通过  pip install  lxml
调用方法  from  lxml import etree
数据转换  html = etree.HTML(r.text)
用法(层层递增的到达目标数据)
返回的数据结果为 列表 数据类型
关键字 :天堂图片 ,妹子图—def方法,必应壁纸—def方法


5.
库名:parsel  通过  pip install   parsel
调用方法 import  parser
 数据转换
 reapnse = requests.get(url,headers=headers)
 html = parsel.Selector(reapnse.text)
 用法  html.xpath().extract()
(层层递增的到达目标数据)
返回的数据结果为 列表 数据类型
 关键字:美女手机壁纸,贴吧美女

6.
库名:json   用来处理 json 数据类型的库 而不是html 代码
调用  import  json
数据转换
    resp_html = requests.get(link,headers=headers).text
    html = json.loads(resp_html)
此时可以进行 re 等数据提取的方法来提取需要的数据
关键字:梨视频,荣耀英雄,六房短视频,果壳问答

4.数据保存
本地的 txt   png  json   不多解释
调用全局变量到某个函数里

关于  xlsx 格式  import openpyxl
关键字  房源信息—郑州,房源信息——北京

关于  .csv  格式   import csv
关键字   豆瓣电子书排行信息获取
'''





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值