我的第一个爬虫程序

最新推荐文章于 2024-04-24 13:35:29 发布

H5女王

最新推荐文章于 2024-04-24 13:35:29 发布

阅读量173

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/h5_queenstyle12/article/details/115418838

版权

import requests
import re

url = 'https://www.dy2018.com'

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
}
resp = requests.get(url,  headers = headers)
resp.encoding = 'gb2312'
page_content = resp.text
obj1 = re.compile(r"2020必看热片.*?<ul>(?P<movies>.*?)</ul>", re.S)
obj2 = re.compile(r"<a href='(?P<href>.*?)' title=.*?>(?P<title>.*?)</a>", re.S)
obj3 = re.compile(r'<div class=player_list>.*?<ul>.*?<li><a href="(?P<child_link_href>.*?)">', re.S)
result = obj1.finditer(page_content)
child_href_list = []
url_list = []
for i in result:
    ul = i.group("movies")
    result2 = obj2.finditer(ul)
    for j in result2:
        print(j.group("title"))
        child_href = url + j.group("href")
        child_href_list.append(child_href)
        url_list.append(j.group("href"))
for child_href1 in child_href_list:
    child_resp = requests.get(child_href1, headers=headers)
    child_resp.encoding = 'gb2312'
    child_page_content = child_resp.text
    result3 = obj3.finditer(child_page_content)
    for k in result3:
        print(k.group("child_link_href"))

这是我看视频写的第一个爬虫小程序，希望看到的朋友能给优化，相互学习一下～

H5女王

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
我的第一个爬虫程序

import requestsimport reurl = 'https://www.dy2018.com'headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}resp = requests.get(url, headers = headers
复制链接

扫一扫