XPath-----爬虫学习记录。爬取知名平台热榜

最新推荐文章于 2023-01-25 14:52:09 发布

猫叔面皮

最新推荐文章于 2023-01-25 14:52:09 发布

阅读量402

点赞数 2

分类专栏：爬虫学习笔记文章标签： python 数据挖掘 html 程序人生经验分享

本文链接：https://blog.csdn.net/qq_41928105/article/details/105648581

版权

这篇博客记录了作者使用Python和XPath爬取知乎、微博、贴吧热榜的过程，包括获取HTML文本、定位内容路径及提取数据。通过实例展示了如何实现简单的网页爬虫。

摘要由CSDN通过智能技术生成

前言：

为了满足自己看一些时下热门的新闻的需求，但又觉得打开每个平台再去翻找有点麻烦。

正好顺便学了一下爬虫。

说明：python语言，xpath方法，windows平台

步骤：

先声明一下自己导入的库

1.准备好网站，并将自己要爬取的数据所在的位置记录一下

我爬取的是知乎、微博、贴吧的热门

知乎热榜：

url_zhihu="https://www.zhihu.com/billboard"

微博热搜：

url_weibo="https://s.weibo.com/top/summary"

贴吧热议：

url_tieba="http://tieba.baidu.com/hottopic/browse/topicList?res_type=1&red_tag=a0897726284"

2.获取网站的html文本

此处仅贴了爬取知乎的代码。其他网站大同小异，请自行更改

ht=urlopen(url_zhihu).read().decode("utf-8")
html=etree.HTML(ht)

3.找到要爬取的内容的路径。

使用Xpath路径爬取内容说明：路径分为绝对路径和相对路径。

使用绝对路径时每一级的标签都不能漏掉比如（"/html/bo

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

猫叔面皮

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python-知乎爬虫和v2ex爬虫的实现

08-12

在这个项目中，我们将探讨如何使用Python的pyspider库来实现知乎和v2ex这两个知名在线社区的爬虫。 **一、pyspider简介** pyspider是一个强大的分布式爬虫框架，它集成了网页抓取、数据处理和定时任务等功能，使得...

利用xpath数据解析爬取百度新闻热榜

qq_48520823的博客

04-08

1389

利用xpath数据解析爬取百度新闻 import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36' } url=' http://top.baidu.com/?fr=mhd_card&q

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫网页解析神器Xpath详细讲解

qq_44723773的博客

01-25

2043

XPath 是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的，但同样适用于 HTML 文档的搜索。

【0基础】教你使用Xpath方式提取网页信息

m0_57376367的博客

09-25

2450

xpath是一套用于解析XML/HTML的语法，它使用路径表达式来选取XML/HTML中的节点或节点集。Xpath常用语法和实例如下表所示xpath使用的第三方库为lxml#1.导入etree类#2.使用html生成etree类对象#3.提取页面目标元素xpath()XPATH语法如下所示路径表达式：谓语什么是谓语？谓语用来查找某个特定节点或者包含某个指定节点，位于被镶嵌在方括号中。

python爬取微博热搜榜

三年喂的博客

06-04

4913

python爬取微博热搜榜最近应我大学室友得需求，做了一个简单的爬虫案例，先给大家看一下程序运行效果接下来就是贴出代码了，在这里我会做一些简单说明，对如刚入门的同学可能会有所帮助，这里使用的是python3 需要引入的包，这两个包可能需要自行下载 urllib lxml 代码 import urllib.request #导入urllib.request库 import urll...

Python爬虫实例--新浪热搜榜[xpath语法]

python伊甸园的博客

10-12

3692

Python爬虫实例--新浪热搜榜[xpath语法] 1.基础环境配置： requests-->版本：2.12.4 lxml-->版本：3.7.2 2.网页分析很容易从html源码中看到，热搜内容在html的<a></a>标签内，热度在<span></span>标签内，我们可以利用这一点用xpath语法进行数据的提取。 ...

python爬虫-某点小说爬取

最新发布

09-10

在这个案例中，"python爬虫-某点小说爬取"项目旨在从特定网站（可能是起点中文网，一个知名的网络小说平台）抓取小说的全部章节，并将它们保存为TXT文本文件，以便用户可以在离线状态下阅读。以下是一些相关的Python...

爬虫-Python

04-01

链家网是中国知名的房地产服务平台，提供了丰富的二手房交易信息。要爬取这些数据，首先我们需要了解其网页结构和数据加载方式。通常，网站数据可能是静态HTML，也可能是动态加载的JavaScript内容。对于动态加载的...

java-crawler-master_java爬虫_爬虫雪球_爬虫_股票_

10-03

在这个“java-crawler-master”项目中，开发者构建了一个专门针对雪球网的爬虫，雪球网是一个知名的投资者社区，提供股票信息、投资组合以及用户讨论等丰富的数据。该项目的核心知识点主要包括以下几个方面： 1. ...

链家网-爬虫.rar

06-09

链家网是一个知名的房产交易平台，提供了大量的房源信息，包括房价、地理位置、交易详情等。本项目是关于如何使用Python的多线程技术和Scrapy爬虫框架来抓取链家网上深圳地区的房价成交数据。以下是对这个项目的详细...

python xpath爬取新闻标题_爬取知乎热榜标题和连接（python，requests，xpath）

weixin_39889337的博客

12-04

1241

用python爬取知乎的热榜，获取标题和链接。环境和方法：ubantu16.04、python3、requests、xpath1.用浏览器打开知乎，并登录2.获取cookie和User—Agent3.上代码import requestsfrom lxml import etreedef get_html(url):headers={'Cookie':'你的Cookie',#'Host':'www....

爬虫入门01：爬取知乎热榜

qdf666

01-21

3287

#!/usr/bin/env python # -*- coding:utf-8 -*- # author:qdf time:2019/1/21 from lxml import etree import requests url = "https://www.zhihu.com/hot" headers = {"User-Agent":"", "Cookie":""} ...

爬取知乎热榜标题和连接（python，requests，xpath）

weixin_30731287的博客

01-21

336

用python爬取知乎的热榜，获取标题和链接。环境和方法：ubantu16.04、python3、requests、xpath 1.用浏览器打开知乎，并登录 2.获取cookie和User—Agent 3.上代码 1 import requests 2 from lxml import etree 3 4 def g...

互联网热点自动获取工具的实现

hora_bird的专栏

05-27

700

目标：不用各个搜索网站去获取互联网热点，通过聚合式来显示当前网络上关注的热点，有利于我们节省时间（我们的时间都是很宝贵的~~）。实现技术：Python（只使用此技术，大牛可以直接无视）先来讲一下处理过程：实现效果图（不要吐槽）一、python 插件（不会安装的自行百度） BeautifulSoup 二、爬虫处理基础类的封装（HttpUtils.py) # -*- coding: utf-8 -*- from urllib import request, pars.

爬虫学习之xpath:使用requests、xpath、html.etree、图片懒加载、转换编码等，爬取多页图片并下载

weixin_45458892的博客

06-11

283

-- coding: utf-8 -- import requests,os from lxml import html headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36’ } dirName = ‘TestFiles’ if not os.path.exists(dirName): o

python爬虫爬取新闻标题_Python正则抓取新闻标题和链接的方法示例

weixin_39620334的博客

11-20

887

本文实例讲述了Python正则抓取新闻标题和链接的方法。分享给大家供大家参考，具体如下：#-*-coding:utf-8-*-import refrom urllib import urlretrievefrom urllib import urlopen#获取网页信息doc = urlopen("http://www.itongji.cn/news/").read() #自己找的一个大数据的新闻...

Python网络爬虫之爬取微博热搜

人生苦短，还不用Python？

05-11

2336

微博热搜的爬取较为简单，我只是用了lxml和requests两个库 url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6 1.分析网页的源代码：右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在<td class="td-02">的子节点里 (2)热搜的排...

技术文章收藏

老周的专栏

07-20

488

一篇不错的讲解Java异常的文章 - 天大地大http://blog.csdn.net/whoopee/archive/2005/12/15/553341.aspx

爬虫实例1:爬取百度热搜风云榜前50条热搜并将热搜发送至自己邮箱

qq_42662411的博客

12-09

2026

1-利用requests库以及xpath 获取百度热搜风云榜的字段如:标题title 热搜url url = 'http://top.baidu.com/buzz?b=1&fr=topindex' header={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like...

基于Scrapy-Redis的Python分布式爬虫毕设源码

本项目使用Python语言开发，结合了Scrapy框架和Redis数据库，以PyCharm为程序开发工具，遵循Scrapy框架的设计模式，通过Xpath技术对网页数据进行提取解析，实现了对当当图书网的高效爬取。Scrapy-Redis的组件提供了...