Python学习 用html和csv文件保存爬取到的数据(6)

在这里不进行多余的赘述,直接附上大佬比较详细的方法链接~
https://www.jianshu.com/p/011abdcee7e4
作者:终可见
来源:简书

看了前面的同学~这里附上爬取的完整代码。

# 导包
import requests
from pyquery import PyQuery as pq
import time  # 延迟获取
# 给请求指定一个请求头来模拟chrome浏览器
# headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
n = 0

'''
定义一个可以获取页面数据以及提取网页源码的函数
定义一个可以获取href属性值的函数
定义一个可以查找指定元素并提取文本内容的函数
'''


def get_html(url):
    # 获取页面内容)(获取数据)
    r = requests.get(url)
    # 提取网页源代码
    html = r.text
    if r.status_code == 200:
        return html
    else:
        return "error"


def get_attr(html, sel, attr_name):
    # 使用pyquery解析网页,生成pyquery对象
    doc = pq(html)
    link = doc(sel)
    # 找到hr
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值