python爬取猫眼电影 top 100 保存到CSV

最新推荐文章于 2024-05-09 21:14:01 发布

sixkery

最新推荐文章于 2024-05-09 21:14:01 发布

阅读量1.4k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/sixkery/article/details/82048444

版权

爬虫专栏收录该内容

20 篇文章 3 订阅

订阅专栏

开启是个线程，把循环事件导入到线程中。

import threading
from bs4 import BeautifulSoup
import requests, csv
from lxml import etree


with open('data.csv', 'a', newline='') as f:
    spamwriter = csv.writer(f)
    spamwriter.writerow(['title', 'star', 'date', 'score'])

class Crawler(threading.Thread):

    def __init__(self, page):
        super().__init__()
        self.page = page

    def run(self):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'
                                 ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
                   }
        url = 'http://maoyan.com/board/4?offset={}'.format(10 * self.page)
        response = requests.get(url, headers=headers)
        html = etree.HTML(response.text)
        results = html.xpath('//*[@class="board-wrapper"]/dd/div/div')
        for result in results:
            # 电影名称 电影主演 电影上映日期 评分
            ws = [
                result.xpath('./div[1]/p[1]/a/text()')[0],
                result.xpath('./div[1]/p[2]/text()')[0].strip(),
                result.xpath('./div[1]/p[3]/text()')[0],
                result.xpath('./div[2]/p/i[1]/text()')[0] + result.xpath('./div[2]/p/i[2]/text()')[0],
            ]
            print(ws)

            #保存到CSV
            with open('data.csv','a',newline='') as f:
                writer = csv.writer(f)
                writer.writerow(ws)


if __name__ == '__main__':

    for page in range(10):
        th = Crawler(page)
        th.start()

sixkery

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python爬取猫眼电影 top 100 保存到CSV

代码没含量，希望帮到入门的小白。import requestsimport re,jsonfrom lxml import etreeimport csvclass Spider(): def open_csv(self): ''' 在CSV文件的开头写一行标题 :return: ''' wi...
复制链接

扫一扫