如何爬虫？（2）——爬虫流程

最新推荐文章于 2024-07-30 09:53:24 发布

这题要怎么做

最新推荐文章于 2024-07-30 09:53:24 发布

阅读量1.1k

点赞数

分类专栏：爬虫文章标签：正则表达式爬虫 python

本文链接：https://blog.csdn.net/lifei1229/article/details/105583618

版权

本文介绍了Python爬虫的基本流程，包括模拟浏览器获取HTML，使用BeautifulSoup解析，正则表达式提取信息，最后将数据保存到Excel。还提到了处理418错误和使用headers的重要性。

摘要由CSDN通过智能技术生成

1.引入模块

# -*- coding:UTF-8 -*-
import requests
import sys
import re
import urllib.request,urllib.error
import xlwt
from bs4 import BeautifulSoup
import sqlite3

2.简单流程

爬虫流程很简单：

先模拟浏览器获取网页html信息,
采用bs4来解析html网页信息
将解析后的数据用正则表达式提取自己需要的内容
把自己要的内容写到excel表里面，完成爬虫

def main():
    baseurl = 'https://movie.douban.com/top250?start='
    #1.爬取网页
    datalist = getData(baseurl)
    savepath = './'
    saveData(savepath)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

这题要怎么做

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
如何爬虫？（2）——爬虫流程

1.引入模块# -*- coding:UTF-8 -*-import requestsimport sysimport reimport urllib.request,urllib.errorimport xlwtfrom bs4 import BeautifulSoupimport sqlite32.简单流程def main(): baseurl = 'https:...
复制链接

扫一扫