爬虫一:爬取基本静态界面的标签内容_

最新推荐文章于 2024-05-12 17:09:36 发布

凉秋girl

最新推荐文章于 2024-05-12 17:09:36 发布

阅读量2.4k

点赞数

分类专栏：爬虫 python 文章标签： python 爬虫数据处理

本文链接：https://blog.csdn.net/qq_36124802/article/details/80338982

版权

爬虫同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

python

2 篇文章 0 订阅

订阅专栏

chrome中CSS Selector与XPath均为描述一个标签的路径

CSS Selector的描述方式为：

body->div.main-content >ul > li:nth-child（1）->img的方式

而XPath为：

html/body/div[2]/ul/li[1]/img

其中汤勺只认Selector方式的路径

#coding=utf-8
import json
from _md5 import md5
from multiprocessing.pool import Pool
import re
import os
import requests
from urllib.parse import urlencode
from bs4 import BeautifulSoup
#创建浏览器的头去模拟浏览器获取信息
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
}

url = 'http://maoyan.com/board'
res = requests.get(url,headers=HEADERS)
res.encoding = 'utf-8'
text = res.text
Soup = BeautifulSoup(text,'lxml')
images = Soup.select('#app > div > div > div > dl > dd > a > img.board-img')
roles = Soup.select('#app > div > div > div > dl > dd > div > div > div.movie-item-info > p.star')
titles = Soup.select('#app > div > div > div > dl > dd > div > div > div.movie-item-info > p.name > a')
begin_times = Soup.select('#app > div > div > div > dl > dd > div > div > div.movie-item-info > p.releasetime')
#print(images)
#dd:nth-child(1)改为dd:nth-of-type(1)
#选择到了自己想要的第一个位置
#在dd后面删除:nth-of-type(1)，以便把所有信息均筛选出来
#汤勺可以筛选出想要的标签内容
#zip的用法是将多个函数的迭代器，合成一个迭代器

for title,image,role,begin_time in zip(titles,images,roles,begin_times):
    data = {
        'title' : title.get_text(),
        'image': image.get('data-src'),
        #image.get('data-src')为得到data-src标签中的内容
        'role': role.get_text(),
        #a.stripped_strings,是get_text的高级版，相当于把所有子文本框内容存到一个数组当中
        'begin_time': begin_time.get_text()
    }
    print(data)
    #title.get_text()为筛选出标签中的所有文本信息

凉秋girl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫一:爬取基本静态界面的标签内容_

chrome中CSS Selector与XPath均为描述一个标签的路径CSS Selector的描述方式为：body-&gt;div.main-content &gt;ul &gt; li:nth-child（1）-&gt;img的方式而XPath为：html/body/div[2]/ul/li[1]/img其中汤勺只认Selector方式的路径#coding=utf-8import json...
复制链接

扫一扫