使用xpath爬取网页文章url标题

最新推荐文章于 2024-05-07 23:52:06 发布

star_xing123

最新推荐文章于 2024-05-07 23:52:06 发布

阅读量6.1k

点赞数 5

分类专栏： python 文章标签： python xpath

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/star_xing123/article/details/102720365

版权

本文使用python3

# -*- coding:utf-8 -*-
import requests
# 由于XPath属于lxml库模块，所以首先要安装库lxml pip install lxml
from lxml import etree
import csv

url = "https://news.sina.com.cn/china/"# 爬取页面url地址

# 根据url获取页面源码
def get_html(url):
	response = requests.get(url)
	response.encoding='utf-8'
	return response.text

# 获取指定标签的内容
def getAllItem(res):
	#  #将字符串解析为html文档 HTML  可以自动补全 li标签  body和html标签
	html = etree.HTML(res)
	#print(html) #<Element html at 0x25be0d7adc8>
	AllItem = []
	
	# 使用xpath匹配文章标签xpath()返回为一列表  @修饰属性  /text() 获取当前路径下的文本内容 
	title = html.xpath('//ul[@class="news-2"]/li/a/text()')
	url = html.xpath('//ul[@class="news-2"]/li/a/@href')
	#enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标
	for index,i in enumerate(title):
		Items = {}
		Items['title'] = i
		Items['url'] = url[inde

最低0.47元/天解锁文章

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
使用xpath爬取网页文章url标题

本文使用python3# -*- coding:utf-8 -*-import requests# 由于XPath属于lxml库模块，所以首先要安装库lxml pip install lxmlfrom lxml import etreeimport csvurl = "https://news.sina.com.cn/china/"# 爬取页面url地址# 根据url获取页面...
复制链接

扫一扫

专栏目录

star_xing123 CSDN认证博客专家 CSDN认证企业博客

码龄7年

30: 原创

8万+: 周排名

152万+: 总排名

6万+: 访问

: 等级

1000: 积分

17: 粉丝

38: 获赞

12: 评论

127: 收藏

私信

关注

热门文章

分类专栏

java 1篇
go 3篇
mysql 1篇
php知识 16篇
git 1篇
python 6篇
html 2篇

最新评论

php实现将一个数组中数字组成一个最大数
Felix-F: 逻辑错误
Mysql中innodb引擎表页大小16KB超出大小怎么办？
塔奇库玛: 和行格式有关，行格式为REDUNDANT ，则varchar会取768字节，溢出部分页外存储。而默认的DYNAMIC行格式好像是全部页外存储，行中保存指向页外的指针，所以没有问题。建表时把行格式设置为REDUNDANT，11个字段，varchar（500），会有报错提示：In current row format, BLOB prefix of 768 bvtes is stored inline.
如何保证消息队列中的消息不被重复消费
木头人（PHP）: 我上去就是一脚
Mysql中innodb引擎表页大小16KB超出大小怎么办？
Edon-Du: 不知道作者是怎么得出这个结论的：还是记录一下，告知后来的读者，实验了5.7和8版本的mysql，并不会触发什么错误但如果建表时字段的总大小大于65535个字节会触发Row size too large. The maximum row size for the used table type 总字段太长错误 blob和text不在总大小的计算范围内 [code=sql] CREATE table big_table ( id int auto_increment not null primary key, var_1 varchar(1500), var_2 varchar(1500), var_3 varchar(1500), var_4 varchar(1500), var_5 varchar(1500), var_6 varchar(1500), var_7 varchar(1500), var_8 varchar(1500), var_9 varchar(1500), var_10 varchar(1500), var_11 varchar(1500) ) engine = innodb charset = utf8mb4 [/code]
python模拟实现QQ邮箱登录
keepgoingYi: 赞

大家在看

最新文章

目录

目录

分类专栏

java 1篇
go 3篇
mysql 1篇
php知识 16篇
git 1篇
python 6篇
html 2篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。