python 爬虫（练习flag）

最新推荐文章于 2024-04-10 20:17:42 发布

try_fei_ge

最新推荐文章于 2024-04-10 20:17:42 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/try_fei_ge/article/details/81003695

版权

差总体调试，未调试原因：IP被封

import requests
from lxml import etree

def urlBuild(startNum) :
    url = "https://book.douban.com/top250?start={0}".format(startNum)
    return url

def urlBuilder() :
    urlSet = []
    for i in [x * 25 for x in range(10)] :
        urlSet.append(urlBuild(i))
    return urlSet

def contentBuild(urlSet) :
    listName = []
    listAuthor = []
    for url in urlSet :
        htmlText = htmlContentGet(url)
        bookItems = bookItemGet(htmlText)
        for item in bookItems:
            bookMessage = singleBookContentGet(item)
            listName.append(bookMessage[0])
            listAuthor.append(bookMessage[1])
            print(bookMessage[0],bookMessage[1])
    result = [listName,listAuthor]
    return result

def htmlContentGet(url) :
    result = requests.get(url)
    return result.text

def bookItemGet(htmlText) :
    selector = etree.HTML(htmlText)
    result = selector.xpath('//tr[@class="item"]')
    return result

def singleBookContentGet(bookItem) :
    nameMessage = bookItem.xpath('td[@valign="top"]/div[@class="pl2"]/a/text()')
    authorMessage = bookItem.xpath('td[@valign="top"]/p[@class="pl"]/text()')
    nameMessage = str(nameMessage[0]) .strip()
    authorMessage = str(authorMessage[0]).split('/')
    authorMessage = authorMessage[0]
    result = [nameMessage,authorMessage]
    return result

def save() :
    pass


if __name__ == '__main__':
    urlSet = urlBuilder()
    allBook = contentBuild(urlSet)
    for i in allBook :
        print(i)

urllib.request.urlretrieve()

保存网络对象到本地

try_fei_ge

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫（练习flag）

差总体调试，未调试原因：IP被封import requestsfrom lxml import etreedef urlBuild(startNum) : url = "https://book.douban.com/top250?start={0}".format(startNum) return urldef urlBuilder() : urlSet = [...
复制链接

扫一扫