小调电影名称爬取

最新推荐文章于 2019-12-17 17:03:20 发布

Bra__u

最新推荐文章于 2019-12-17 17:03:20 发布

阅读量426

点赞数 1

分类专栏： python|入门

本文链接：https://blog.csdn.net/qq_38537101/article/details/86595577

版权

import requests,os
from lxml import etree
from urllib.parse import urljoin
import  re

pattern = re.compile(r"《(.*?)》")
url = 'https://www.dy2018.com/html/gndy/dyzz/index.html'
response = requests.get(url)
html_content = response.text
root = etree.HTML(html_content)

all_pages = root.xpath("//select[@name='select']/option/@value")
f = open('小调网.csv','w',encoding = 'utf8')
for page in all_pages:
    page = urljoin(url,page)
    response = requests.get(page)
    response.encoding = 'gbk'
    html_content = response.text
    root = etree.HTML(html_content)
    mov_name = root.xpath('//table/tr/td/b/a/@title')
    mov_url = root.xpath('//table/tr/td/b/a/@href')

    for mov_name,mov_url in zip(mov_name,mov_url):

       try:
            result = pattern.findall(mov_name)[0]
            href = urljoin(url,mov_url)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Bra__u

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小调电影名称爬取

import requests,osfrom lxml import etreefrom urllib.parse import urljoinimport repattern = re.compile(r"《(.*?)》")url = 'https://www.dy2018.com/html/gndy/dyzz/index.html'response = requests.ge...
复制链接

扫一扫