金投网煤炭数据爬取-精进版

最新推荐文章于 2024-12-05 16:51:58 发布

ZSH月下独饮

最新推荐文章于 2024-12-05 16:51:58 发布

阅读量1.2k

点赞数 7

分类专栏： Python爬虫文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_45792455/article/details/108365130

版权

Python爬虫专栏收录该内容

2 篇文章

订阅专栏

本文分享了使用Python爬取金投网2010年至2020年全国煤炭价格数据的经验，详细介绍了从网站结构分析、数据抓取到存储分析的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

金投网数据爬取-加强版

注：博主经过一个暑假的游手好闲，学习到了xpath及一些其他的有意思的小东西。对于之前爬取金投网的课题有了一些新的思路，特此卷土重来，让我们开始吧！

目录标题

金投网数据爬取-加强版

来进行分析煤炭价格变化。要求获取从2010年至2020年的全国煤炭数据，将数据进行存储，整理，分析，并且绘制了不同种类、不同地区的煤炭价格走势、煤炭价格比较的图表*

金投网链接: 金投网首页.

访问金投网，熟悉网站结构

对我们需要的信息做出一些整理，了解它们所在的位置，这次我们直接一些，点击下面的全部显示

全部显示
我们会发现十年内的网址都在这里

在这里插入图片描述
Fn+F12（不同设备方法可能不同）再点击“查找器”（下图中红色圈圈处）找到我们需要的信息所在的标签

在这里插入图片描述
点击其中一个网址进入查看，发现还要点击一次才能到达有煤炭价格数据的网站

这时我们再次按Fn+F12对网页进行检查，找到网址原来藏在一个a标签的href中

点击该网址后终于来到了有煤炭价格数据的网址了！
信息界面
继续查看我们需要的信息所在位置的标签，原来套在一个tr标签下面
继续查找我们需要的信息

思路整理

不要急着去看代码，写代码。在写代码之前要先想好逻辑，这才是最重要的，正所谓磨刀不误砍柴工，我认为这句话在编程中是最能体现的。大部分人写不出代码不是因为不会语法，而是因为连逻辑都没想好，不同的部分不能协调，最后把自己都绕晕了。
1.我们直接从有十年网址的网站（链接）下手，从中获取出所有的网址，并保存在一个列表中；
2.我们再遍历列表中的每一个元素，从这些链接中取出有煤炭价格数据的网站的链接，同样保存在一个列表中，也可以保存在csv文件中；
3.遍历列表中的每一个元素，提取出网页中的煤炭价格数据，并保存在一个列表中，后续只需要对这个列表做一些处理即可。

代码详解

首先对金投网首页的网址进行爬取，获取其中我们需要去往的网址，再在我们需要去往的这些网址中获取我们需要的煤炭信息。

import sys
import requests
import numpy as np
import csv
import pandas as pd
from lxml import etree
# 使用文档解析类库
from bs4 import BeautifulSoup
# 使用网络请求类库
import urllib.request


# 输入网址
html_doc = "https://www.cngold.org/meitan/"
all_url = 'https://www.cngold.org/meitan/list_112_all.html'

if len(sys.argv)>1:
   website=sys.argv[1]
   if(website is not None):
        html_doc= sys.argv[1]
#伪装
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36"
}
# 获取请求
req = urllib.request.Request(html_doc)
# 打开页面
webpage = urllib.request.urlopen(req)
# 读取页面内容
html = webpage.read()
# 解析成文档对象
soup = BeautifulSoup(html, 'html.parser')   #文档对象

#getallhtml函数的作用是爬取all_url链接中的十年内的煤炭价格网址，并储存在列表a中
a = []
def getallhtml(all_url):
    all_html = requests.get(all_url,headers = headers).content.decode('utf-8')
    lx_all_html = etree.HTML(all_html)
    #运用xpath，注：获得的urls是一个列表
    urls = lx_all_html.xpath('//div[@class="history_news_content"]/ul/li/a/@href')
    for i in urls:
        #print(i)，用于最初遍历列表元素，查看是否有误
        one_html = requests.get(i).content.decode('utf-8')
        #print(one_html)
        lx_one_html = etree.HTML(one_html)
        #再次使用xpath获得我们最终需要访问网站网址
        last_url = lx_one_html.xpath('//div[@class="border_top"]/ul/li/a/@href')
        #因为运行时发现，网站结构在十年中有所改变，具体是从2018/3/19开始，旧的网站数据结构需要用下面的xpath来获取
        if last_url == []:
            last_url = lx_one_html.xpath('//div[@class="left_info"]/ul/li/a/@href')[0]
        a.append(last_url)
getallhtml(all_url)

allUniv = []
#函数getHTMLText用于获取url中的网页源码，并以文本形式返回
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30,)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except :
        pass
        
#函数fillUnivList用于从网页源码的文本形式中提取煤炭价格信息，并保存在allUniv列表中
def fillUnivList(soup):
    date = soup.find_all('table')
    for ul in date:

        singleUniv = []
        lspan = ul.find_all('tbody')
        for span in lspan:
            la = span.find_all('tr')
            for a in la:
                lb = a.find_all('td')
                for b in lb:
                    
                    singleUniv.append(b.string)
            allUniv.append(singleUniv)
        break

#asize函数用于将列表分割成特定长度的列表
def asize(arr,size):
    s = []
    c = []
    for i in range(0,int(len(arr)),size):
        c = arr[i:i+size]
        s.append(c)
    return s
#main方法将getHTMLText函数和fillUnivList函数结合在一起，便于后续直接调用
def main(url):
    html = getHTMLText(url)
    soup = BeautifulSoup(html.replace('&nbsp;', ' '),"lxml")
    fillUnivList(soup)      
 
#以下是最终爬取
#下面代码中文件写入时的'w'是覆盖写入
f = open(r'E://python//dizhi.csv','w',newline ='',encoding='utf-8')  #文件路径、操作模式、编码  # r''
for i in a:
    url = (''.join(i))
    f.write(url +"\n")
f.close()

#count用于计算获取到的网址的数量
count = 0

#将获取到的URL存入指定的CSV文件
with open('E://python//dizhi.csv' ) as f:
    r = csv.reader(f)
    arr = list(r)
    temp = np.array(arr)
    t = temp.shape[0]
    for i in range(0,t):
        count += 1 
print(count)

#我们需要的网址在a列表中，遍历a列表
for i in a:
    url = (''.join(i)) #将数组中的字符串释放，即将'https://...'变为https://...
    allUniv = []   #建立一个列表，用于存储爬取的数据
    main(url)      #调用main函数
    last = []
    #由于allUniv是一个双重列表，下面使用双重for循环将双重列表进行分割，将最底层的元素6个一组进行重新编排
    for i in allUniv:
        for j in i:
            last.append(j)
    last = asize(last,6)
#下面将获取的数据存入指定的文件夹中
#下面代码中的'a+'代表追加写入

    with open('E://python//shuju.csv', 'a+', newline='') as csvfile:
        writer  = csv.writer(csvfile)
        for row in last:
            
            writer.writerow(row)
print("导入已经完成")   #提示最后程序是否完成运行