爬虫之东方财富网站学习笔记

最新推荐文章于 2023-12-31 00:23:39 发布

qq_45931528

最新推荐文章于 2023-12-31 00:23:39 发布

阅读量5.5k

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_45931528/article/details/120842441

版权

本文记录了使用Python爬虫爬取东方财富网站的步骤，包括分析网页内容、使用requests、beautifulsoup库抓取数据，结合pprint美化输出，并将结果存储为csv文件的过程。

摘要由CSDN通过智能技术生成

目标：爬取东方财富网站数据

步骤：1.分析网站页面内容确定爬取的具体目标

2.查阅资料进行代码和思路学习

3.进行实际操作尝试爬取网站

通过教程学习可知爬取页面涉及的几个包有

1.requests库是一个http请求库用于对目标网页进行爬取

2.beautifulsoup库主要的功能是从网页抓取数据

3.pprint库主要功能是美化打印结果

4.由于最终结果要存储成为csv文件导入了csv相关库

import requests
from bs4 import BeautifulSoup
import pprint
import csv
import pandas as pd

导库结束后进行网页下载

定义一个函数用于下载html

def download_all_htmls():
    htmls=[]
    for i in range(1):
        url = f"http://data.eastmoney.com/zjlx/00000{i+1}.html/"
        print("craw html:",url)
        r = requests.get(url)
        if r.status_code !=200:
             raise Exception("error")
        htmls.append(r.text)
    return htmls

调用函数查看下载的html链接