使用xpath爬取网页文章url标题

本文使用python3

# -*- coding:utf-8 -*-
import requests
# 由于XPath属于lxml库模块,所以首先要安装库lxml pip install lxml
from lxml import etree
import csv

url = "https://news.sina.com.cn/china/"# 爬取页面url地址

# 根据url获取页面源码
def get_html(url):
	response = requests.get(url)
	response.encoding='utf-8'
	return response.text

# 获取指定标签的内容
def getAllItem(res):
	#  #将字符串解析为html文档 HTML  可以自动补全 li标签  body和html标签
	html = etree.HTML(res)
	#print(html) #<Element html at 0x25be0d7adc8>
	AllItem = []
	
	# 使用xpath匹配文章标签xpath()返回为一列表  @修饰属性  /text() 获取当前路径下的文本内容 
	title = html.xpath('//ul[@class="news-2"]/li/a/text()')
	url = html.xpath('//ul[@class="news-2"]/li/a/@href')
	#enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标
	for index,i in enumerate(title):
		Items = {}
		Items['title'] = i
		Items['url'] = url[inde
  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值