python爬虫爬取网页新闻标题-看完保证你会

最新推荐文章于 2024-06-08 11:00:00 发布

楠风`

最新推荐文章于 2024-06-08 11:00:00 发布

阅读量1.2w

点赞数 8

文章标签： python xpath html

本文链接：https://blog.csdn.net/Hexuefu_Bayonet/article/details/109677606

版权

python爬虫爬取网页新闻标题方法

1.首先使用浏览自带的工具——检查，查找网页新闻标题对应的元素位置，这里查到的新闻标题是在 h3 标签中
在这里插入图片描述

2.然后使用编辑器编写python代码
2.1方法一：

import requests
from bs4 import BeautifulSoup

url = 'http://www.xxx.com/'

r = requests.get(url)
r.encoding = 'utf-8'
soup = BeautifulSoup(r.text,'html.parser')  # 'html.parser'这是BeautifulSoup库的HTML解析器的用法,用于解析HTML
#print(r.text)

titles = soup.select('h3')
for title in titles:                  # 使用循环输出爬取到的网页上的所有新闻标题
	print(title.text)

2.2方法二：

#coding = utf-8

import requests
from lxml import etree

url = 'http://www.xxx.com/'

r = requests.get(url)
html = etree.HTML(r.text)

titles = html.xpath('//div[@class="box-seven"]//h3/text()')
for title in titles:
    print('Title:', title)

3.总结：
以上两种方法都可以实现爬取网页新闻标题的功能，有用的话可以关注我，有问题可私信留言交流。

楠风`

关注

8
点赞
踩
75

收藏

觉得还不错? 一键收藏
6
评论
python爬虫爬取网页新闻标题-看完保证你会

python爬虫爬取网页新闻标题方法1.首先使用浏览自带的工具——检查，查找网页新闻标题对应的元素位置，这里查到的新闻标题是在 h3 标签中2.然后使用编辑器编写python代码2.1方法一：import requestsfrom bs4 import BeautifulSoupurl = 'http://www.xxx.com/'r = requests.get(url)r.encoding = 'utf-8'soup = BeautifulSoup(r.text,'html.pa
复制链接

扫一扫