Spider整体架构

最新推荐文章于 2024-04-17 13:30:20 发布

苏格拉没底——

最新推荐文章于 2024-04-17 13:30:20 发布

阅读量328

点赞数

分类专栏： Python/爬虫/可视化/数分

本文链接：https://blog.csdn.net/qq_924485343/article/details/110568677

版权

Python/爬虫/可视化/数分专栏收录该内容

37 篇文章 0 订阅

订阅专栏

# -*- codeing = utf-8 -*-
# @Time : 11/30/2020 07:47 PM
# @Author : Gyp
# @File : spider


from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import sqlite3
import xlwt

def main():
    # 1 爬取网页
    # 2 解析数据
    # 3 保存数据   爬取网页 解析数据 保存数据
    baseurl = "http://movie.douban.com/top250?start="
    savepath = r".\豆瓣top250.xls"
    datalist = getData(baseurl)
    saveData(datalist,savepath)

def getData(baseurl):

    datalist = []
    #获取数据并且处理
    return datalist

if __name__ == "main":

    main()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

苏格拉没底——

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
Spider__整体架构__

# -*- codeing = utf-8 -*-# @Time : 11/30/2020 07:47 PM# @Author : Gyp# @File : spiderfrom bs4 import BeautifulSoupimport reimport urllib.request,urllib.errorimport sqlite3import xlwtdef main(): # 1 爬取网页 # 2 解析数据 # 3 保存数据爬取网页解析数.
复制链接

扫一扫