Python学习用html和csv文件保存爬取到的数据（6）

最新推荐文章于 2024-04-26 12:39:42 发布

(*°∀°)=3

最新推荐文章于 2024-04-26 12:39:42 发布

阅读量402

点赞数 1

分类专栏：学习记录文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_44150801/article/details/95761772

版权

在这里不进行多余的赘述，直接附上大佬比较详细的方法链接~
https://www.jianshu.com/p/011abdcee7e4
作者：终可见
来源：简书

看了前面的同学~这里附上爬取的完整代码。

# 导包
import requests
from pyquery import PyQuery as pq
import time  # 延迟获取
# 给请求指定一个请求头来模拟chrome浏览器
# headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
n = 0

'''
定义一个可以获取页面数据以及提取网页源码的函数
定义一个可以获取href属性值的函数
定义一个可以查找指定元素并提取文本内容的函数
'''


def get_html(url):
    # 获取页面内容）（获取数据）
    r = requests.get(url)
    # 提取网页源代码
    html = r.text
    if r.status_code == 200:
        return html
    else:
        return "error"


def get_attr(html, sel, attr_name):
    # 使用pyquery解析网页，生成pyquery对象
    doc = pq(html)
    link = doc(sel)
    # 找到hr

最低0.47元/天解锁文章

(*°∀°)=3

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python学习用html和csv文件保存爬取到的数据（6）

在这里不进行多余的赘述，直接附上大佬比较详细的方法链接~https://www.jianshu.com/p/011abdcee7e4作者：终可见来源：简书看了前面的同学~这里附上爬取的完整代码。# 导包import requestsfrom pyquery import PyQuery as pqimport time # 延迟获取# 给请求指定一个请求头来模拟chrome...
复制链接

扫一扫