爬取东方财富网数据笔记

最新推荐文章于 2024-03-30 13:15:46 发布

R眰恦

最新推荐文章于 2024-03-30 13:15:46 发布

阅读量8.3k

点赞数 8

文章标签： python 爬虫人工智能

本文链接：https://blog.csdn.net/m0_63151116/article/details/120844239

版权

小白是如何学习爬虫的？首先先从简单的入手，在b站上寻找爬虫视频，这里推荐Python爬虫编程基础5天速成（2021全新合集）Python入门+数据分析_哔哩哔哩_bilibili

有编程基础的仅需要观看其中部分爬虫视频即可，如果没有编程基础可以自行观看完整视频。这里的爬虫讲解以豆瓣电影Top250的信息爬取为主，所以通过学习如何爬取豆瓣电影信息为基础，在此基础上摸索爬取东方财富网的信息数据。（爬取豆瓣的代码，在视频中有非常完整的讲解）

一、下面首先爬取了东方财富网的Title

网址：平安银行(000001)资金流向 _ 数据中心 _ 东方财富网 (eastmoney.com)

详细代码如下所示（包含部分代码解释）：

from bs4 import BeautifulSoup      # 网页解析，获取数据
import re       # 正则表达式，进行文字匹配
import urllib.request,urllib.error      # 制定URL，获取网页数据
import xlwt     # 进行excel操作

def main():
    baseurl = "http://data.eastmoney.com/zjlx/000001.html"
    # 1.爬取网页
    datalist = getDate(baseurl)

    # 2.逐一解析数据

    # 3.打印数据或保存到当前代码文件夹下    
    savepath = "东方财富名称.xlsx"
    saveData(datalist, savepath)

# 创建正则表达式的对象
findTitle = re.compile(r'<a href="(.*?)">(.*?)</a>')

# 爬取网页
def getDate(baseurl):
    datalist = []
    html = askURL(baseurl)  # 保存获取到的网页源码
    # 2.逐一解析数据       在网页的解析中，寻找到需要的信息代码块
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('tr'):
        for it in item.find_all('td'):
            it = str(it)
            tirle = re.findall(findTitle, it)
            if len(tirle)!=0:
                datalist.append(tirle[0][1])
    # print(datalist)
    return datalist

# 得到指定一个URL的网页内容
def askURL(url):
    # 用户代理，表示告诉网页服务器，是何种类型的机器、浏览器
    # 模拟浏览器头部信息，向网页服务器发送信息
    headers = {

最低0.47元/天解锁文章

R眰恦

关注

8
点赞
踩
73

收藏

觉得还不错? 一键收藏
4
评论
爬取东方财富网数据笔记

小白是如何学习爬虫的？首先先从简单的入手，在b站上寻找爬虫视频，这里推荐Python爬虫编程基础5天速成（2021全新合集）Python入门+数据分析_哔哩哔哩_bilibili有编程基础的仅需要观看其中部分爬虫视频即可，如果没有编程基础可以自行观看完整视频。这里的爬虫讲解以豆瓣电影Top250的信息爬取为主，所以通过学习如何爬取豆瓣电影信息为基础，在此基础上摸索爬取东方财富网的信息数据。（爬取豆瓣的代码，在视频中有非常完整的讲解）下面首先爬取了东方财富网的Title 网址：平安银行...
复制链接

扫一扫