爬虫（etree+xpath）

来也空空去也空空

已于 2022-05-03 09:52:26 修改

阅读量500

点赞数

分类专栏： python 文章标签： python 爬虫

于 2022-03-31 16:09:33 首次发布

本文链接：https://blog.csdn.net/qq_44778375/article/details/123874901

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这次我们抓取多个元素，通过对元素的处理，拼接成我们想要的格式。

首先还是找到爬取内容：电影类型以及对应的url

爬取结果：

我们想要的结果：

import requests
from lxml import etree


#爬取目标  电影类型以及url  


#首先是获取目标网页的内容
sum_http = 'https://www.dy2018.com/'
response = requests.get(sum_http)
response.encoding = 'UTF-8'
html = etree.HTML(response.content, parser=etree.HTMLParser(encoding='gbk'))
dayli_http = html.xpath("//div[@class='contain']")[0]

#开始爬取内容
fime_type = []
f_type_name = dayli_http.xpath("//div[@class= 'contain']/ul/li/a/text()")
f_type_url = dayli_http.xpath("//div[@class= 'contain']/ul/li/a/@href")
f_list_name = dayli_http.xpath("//div[@class='index_list']/div[@class='co_area2']//span[@style='float:left;']/a/text()")
f_list_url = dayli_http.xpath("//div[@class='index_list']/div[@class='co_area2']//span[@style='float:left;']/a/@href")
# print(f_type_name)
# print(f_type_url)
# print(f_list_name)
# print(f_list_url)
'''

爬取到了自己想要的，但是有些格式不对，需要我们进行改动分类
地址需要我们进行拼接
最后的格式：动作片 https://www.dy2018.com/2/
            2022新片精品 https://www.dy2018.com/html/gndy/dyzz/index.html
'''
# #查看下他们的类型  都是list集合
# print(type(f_type_name))
# print(type(f_type_url))
# print(type(f_list_name))
# print(type(f_list_url))

#进行改动
#首先对f_type_url
new_f_type_url = []
for i in f_type_url:
    new_f_type_url.append(sum_http+i)
# print(new_f_type_url)

#接下来对f_list_url继续宁改动
new_f_list_url = []
for i in range(len( f_list_url)):
  new_f_list_url.append(sum_http+f_list_url[i])
# print(new_f_list_url)

#开始合并
add_f = []
add_f_list = []
for i in range(len(f_type_name)):
    # print(f_type_name[i]+" "+new_f_type_url[i])
    add_f.append(f_type_name[i]+" "+new_f_type_url[i])
for i in range(len(f_list_name)):
    # print(f_list_name[i]+new_f_list_url[i])
    add_f_list.append(f_list_name[i]+" "+new_f_list_url[i])
print(add_f)
print(add_f_list)

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/qq_44778375/article/details/123874901

来也空空去也空空

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫（etree+xpath）

之前是对单个元素进行了爬取，这次我们抓取多个元素，再对元素处理，拼接成我们想要的格式。爬取内容：电影类型以及对应的url爬取结果：我们想要的结果：import requestsfrom lxml import etree#爬取目标电影类型以及url #首先是获取目标网页的内容sum_http = 'https://www.dy2018.com/'response = requests.get(sum_http)response.encodin.
复制链接

扫一扫