Python爬虫
文章平均质量分 63
Python爬虫学习记录
Mount256
一位热爱气象的编程爱好者~
展开
-
Python爬虫——使用JSON库解析JSON数据
文章目录1 如何在网页中获取 JSON 数据?2 Python 内置的 JSON 库这几天在琢磨爬取动态网页,发现需要爬取js内容,虽然说最后还是没有用上 JSON库进行解析,不过笔记写的都写了,就发出来记录一下吧。1 如何在网页中获取 JSON 数据?打开一个具有动态渲染的网页,按 F12 打开浏览器开发工具,点击“网络”,再刷新一下网页,观察是否有新的数据包。发现有 js 后缀的文件,这就是我们想要的 json 数据了。2 Python 内置的 JSON 库内置的 json 库的函数:原创 2022-05-30 15:11:39 · 5196 阅读 · 0 评论 -
Python爬虫——使用XPath和lxml库解析HTML
文章目录0 安装 XPath Helper 插件1 XPath 语法1.1 节点1.2 谓语2 lxml 库使用实例2.1 解析字符串为 HTML2.2 获取 div 标签2.3 获取某个指定的 div 标签2.4 获取属性为 id='even' 的 div 标签2.5 获取标签下的属性值2.5.1 初步想法2.5.2 改进程序2.6 获取标签下的文本信息写在后面在re、bs4、xpath等解析库中,re库运行起来效率最高,但用起来太麻烦;XPath 使用较为方便,而且效率损失不大。因此应某人的需求(?)原创 2022-05-28 13:45:41 · 1204 阅读 · 4 评论 -
Python爬取天气实况(2)
三、对爬取天气实况程序的进一步优化对上一篇的程序进行优化,加上了处理异常机制,比如爬取失败怎么处理,比如站号不存在怎么处理,使程序更加健壮。代码如下:import requestsimport redef getHTMLtext(url): try: r = requests.get(url, timeout=30) r.raise_for_status() #如果状态不是200,引发HTTPError异常 r.encoding = r.原创 2020-05-15 11:10:37 · 646 阅读 · 3 评论 -
Python爬取天气实况(1)
一、最初的想法我们昨天弄了个爬取天气实况的程序,本文章用以记录思考和编写过程。这里选取的爬取网站是http://q-weather.info/weather/59488//realtime/下图就是查天气网站截图。(站号修改成其他气象站号就可以查询其他城市的实况)我们以59488珠海站为例,爬取的HTML源代码如下:<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xht原创 2020-05-11 10:03:16 · 1433 阅读 · 0 评论 -
尝试爬取当当网商品搜索结果页面
刚刚学完爬虫的基本知识,也基本会用request、bs4和re这三个库了,于是尝试爬取当当网商品搜索页面,这是本人第一次爬虫。这次的爬取目标是获取搜索页面的所有商品价格和名称,所以我们对爬下来的HTML文本做了些许分析。搜索关键词假设是“六年级”,那么与第一个商品有关的HTML便如下(用了YAML代码块来表示,请见谅)。可以发现,与第一个商品有关的名称位于名称为p、属性为name的标签下,而价...原创 2020-04-19 22:41:09 · 496 阅读 · 0 评论 -
Python爬虫代码基本框架
Python爬虫代码基本框架框架如下:def getHTMLtext(url): try: r = requests.get(url, timeout=30) r.raise_for_status() #如果状态不是200,引发HTTPError异常 r.encoding = r.apparent_encoding ret...原创 2020-04-17 10:37:42 · 309 阅读 · 0 评论