python爬虫 - 爬取 json 格式数据(巨潮网,公司年报)

python爬虫五部曲:

  • 第一步:安装requests库

  • 第二步:获取爬虫所需的header和cookie

  • 第三步:获取网页

  • 第四步:解析网页

  • 第五步:分析得到的Json数据

1. 第一步:安装requests库

在程序中引用两个库的书写是这样的:

import requests

以pycharm为例,在pycharm上安装这个库的方法。在菜单【文件】–>【设置】->【项目】–>【Python解释器】中,在所选框中,点击软件包上的+号就可以进行查询插件安装了。有过编译器插件安装的hxd估计会比较好入手。具体情况就如下图所示。

在这里插入图片描述

2. 第二步:获取爬虫所需的header和cookie

以爬取 巨潮网 公司年报 的爬虫程序为例。获取header和cookie是一个爬虫程序必须的,它直接决定了爬虫程序能不能准确的找到网页位置进行爬取。

  • 首先通过浏览器,打开 巨潮网,

打开 巨潮网 http://www.cninfo.com.cn/new/index

在这里插入图片描述
在这里插入图片描述

输入自己关注的股票,找到公告相关信息,选择:更多

在这里插入图片描述在这里插入图片描述

  • [x]按下F12,就会出现网页的js语言设计部分,找到网页上的Network部分。并选中“放大镜(过滤)”,如下图所示:

在这里插入图片描述

  • 然后按下ctrl+R刷新页面,此时发现右边 NetWork 部分出现很多信息。(如果进入后就有所需要的信息,就不用刷新了),当然刷新了也没啥问题。

在这里插入图片描述

  • 在选中放大镜后的输入框中,输入其中一个关注的信息,比如:中信建投,通过 放大镜 搜索 功能,搜索自己关注的信息,并点击 ”刷新按钮“,就会在Search 结果中,显示相关的信息

在这里插入图片描述

在这里插入图片描述

双击选中上述查询结果中的某一条数据(上图中 红色框的部分),此时会发现右下部分 网络信息 也会同步自动选中某一行信息,如下图所示:

  • 也可以通过 Network --> Filter 功能,搜索网址中的关键信息 的方式进行过滤

    在 Network --> Filter 中,依据网页中的关键信息进行过滤,如输入: 中信建投,但本例中并没有信息显示

在这里插入图片描述

  • 拷贝其 cURL 信息

    在 Network --> Filter 中,关键信息进行过滤后,我们浏览Name这部分,找到我们想要爬取的文件(网络信息),鼠标右键,选择copy,复制下网页的URL。

    过滤后,有效信息会少很多,如下所示。选中所需的条目,右键 --> Copy --> Copy as cURL

在这里插入图片描述


curl 'http://www.cninfo.com.cn/new/hisAnnouncement/query' \
  -H 'Accept: application/json, text/javascript, */*; q=0.01' \
  -H 'Accept-Language: zh-CN,zh;q=0.9' \
  -H 'Content-Type: application/x-www-form-urlencoded; charset=UTF-8' \
  -H 'Cookie: JSESSIONID=EF5F553523A7F57931788215EEA38C23; SF_cookie_4=17470996; insert_cookie=37836164; _sp_ses.2141=*; routeId=.uc2; _sp_id.2141=97e243ce-8c09-4be7-8850-ec31fc55deb6.1713703123.1.1713703185.1713703123.8e5a815e-52a3-4f02-880b-4bbd541f9bb6; SID=8fe2c8b0-1f78-4be2-8c4a-c780f514fd6c; cninfo_user_browse=300229,9900016933,%E6%8B%93%E5%B0%94%E6%80%9D' \
  -H 'Origin: http://www.cninfo.com.cn' \
  -H 'Proxy-Connection: keep-alive' \
  -H 'Referer: http://www.cninfo.com.cn/new/disclosure/stock?orgId=9900016933&stockCode=300229' \
  -H 'User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36' \
  -H 'X-Requested-With: XMLHttpRequest' \
  --data-raw 'stock=300229%2C9900016933&tabName=fulltext&pageSize=30&pageNum=1&column=szse&category=&plate=sz&seDate=&searchkey=&secid=&sortName=&sortType=&isHLtitle=true' \
  --compressed \
  --insecure


转换后信息如下图所示,选择【Copy to clipboard】,并黏贴到Pycharm开发环境中即可直接使用:

转换后信息如下图所示,请关注:header 中的 传输格式为: Json

选择【Copy to clipboard】,并黏贴到Pycharm开发环境中即可直接使用:

在这里插入图片描述

选择【Copy to clipboard】, 拷贝到 pycharm 中,可直接作为源代码使用:


import requests

cookies = {
    'JSESSIONID': 'EF5F553523A7F57931788215EEA38C23',
    'SF_cookie_4': '17470996',
    'insert_cookie': '37836164',
    '_sp_ses.2141': '*',
    'routeId': '.uc2',
    '_sp_id.2141': '97e243ce-8c09-4be7-8850-ec31fc55deb6.1713703123.1.1713703185.1713703123.8e5a815e-52a3-4f02-880b-4bbd541f9bb6',
    'SID': '8fe2c8b0-1f78-4be2-8c4a-c780f514fd6c',
    'cninfo_user_browse': '300229,9900016933,%E6%8B%93%E5%B0%94%E6%80%9D',
}

headers = {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    # 'Cookie': 'JSESSIONID=EF5F553523A7F57931788215EEA38C23; SF_cookie_4=17470996; insert_cookie=37836164; _sp_ses.2141=*; routeId=.uc2; _sp_id.2141=97e243ce-8c09-4be7-8850-ec31fc55deb6.1713703123.1.1713703185.1713703123.8e5a815e-52a3-4f02-880b-4bbd541f9bb6; SID=8fe2c8b0-1f78-4be2-8c4a-c780f514fd6c; cninfo_user_browse=300229,9900016933,%E6%8B%93%E5%B0%94%E6%80%9D',
    'Origin': 'http://www.cninfo.com.cn',
    'Proxy-Connection': 'keep-alive',
    'Referer': 'http://www.cninfo.com.cn/new/disclosure/stock?orgId=9900016933&stockCode=300229',
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

data = {
    'stock': '300229,9900016933',
    'tabName': 'fulltext',
    'pageSize': '30',
    'pageNum': '1',
    'column': 'szse',
    'category': '',
    'plate': 'sz',
    'seDate': '',
    'searchkey': '',
    'secid': '',
    'sortName': '',
    'sortType': '',
    'isHLtitle': 'true',
}

response = requests.post(
    'http://www.cninfo.com.cn/new/hisAnnouncement/query',
    cookies=cookies,
    headers=headers,
    data=data,
    verify=False,
)


print(f'response= {response}')
print(f'response.text= {response.text}')
print(f'response.json= {response.json()}')



3. 第三步:获取网页

通过requests.get() 即可获取网页内容:


response = requests.post(
    'http://www.cninfo.com.cn/new/hisAnnouncement/query',
    cookies=cookies,
    headers=headers,
    data=data,
    verify=False,
)

print(f'response= {response}')
print(f'response.text= {response.text}')


4. 第四步:解析网页

由于 get 的结果,就是 json 数据,所以后续只需要针对 json格式进行解析即可:

在这里插入图片描述

格式化后应答数据内容如下:

在这里插入图片描述

5. 第五步:解析 json 结构数据体


json_content = response.json()

print(f'json_content.totalSecurities           = {json_content["totalSecurities"]}')
print(f'json_content.totalRecordNum            = {json_content["totalRecordNum"]}')
print(f'json_content.totalpages                = {json_content["totalpages"]}')
print(f'json_content.data.announcements.size() = {json_content["announcements"]}.size()')

for item in json_content["announcements"]:
    print(f'secCode = {item["secCode"]}, '
          f'secName = {item["secName"]}, '
          f'announcementTitle = {item["announcementTitle"]}')

6. 代码实例以及结果展示


import requests

cookies = {
    'JSESSIONID': 'EF5F553523A7F57931788215EEA38C23',
    'SF_cookie_4': '17470996',
    'insert_cookie': '37836164',
    '_sp_ses.2141': '*',
    'routeId': '.uc2',
    '_sp_id.2141': '97e243ce-8c09-4be7-8850-ec31fc55deb6.1713703123.1.1713703185.1713703123.8e5a815e-52a3-4f02-880b-4bbd541f9bb6',
    'SID': '8fe2c8b0-1f78-4be2-8c4a-c780f514fd6c',
    'cninfo_user_browse': '300229,9900016933,%E6%8B%93%E5%B0%94%E6%80%9D',
}

headers = {
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    # 'Cookie': 'JSESSIONID=EF5F553523A7F57931788215EEA38C23; SF_cookie_4=17470996; insert_cookie=37836164; _sp_ses.2141=*; routeId=.uc2; _sp_id.2141=97e243ce-8c09-4be7-8850-ec31fc55deb6.1713703123.1.1713703185.1713703123.8e5a815e-52a3-4f02-880b-4bbd541f9bb6; SID=8fe2c8b0-1f78-4be2-8c4a-c780f514fd6c; cninfo_user_browse=300229,9900016933,%E6%8B%93%E5%B0%94%E6%80%9D',
    'Origin': 'http://www.cninfo.com.cn',
    'Proxy-Connection': 'keep-alive',
    'Referer': 'http://www.cninfo.com.cn/new/disclosure/stock?orgId=9900016933&stockCode=300229',
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}

data = {
    'stock': '300229,9900016933',
    'tabName': 'fulltext',
    'pageSize': '30',
    'pageNum': '1',
    'column': 'szse',
    'category': '',
    'plate': 'sz',
    'seDate': '',
    'searchkey': '',
    'secid': '',
    'sortName': '',
    'sortType': '',
    'isHLtitle': 'true',
}

response = requests.post(
    'http://www.cninfo.com.cn/new/hisAnnouncement/query',
    cookies=cookies,
    headers=headers,
    data=data,
    verify=False,
)

print(f'response= {response}')
print(f'response.text= {response.text}')
# print(f'response.json= {response.json()}')

json_content = response.json()

print(f'json_content.totalSecurities           = {json_content["totalSecurities"]}')
print(f'json_content.totalRecordNum            = {json_content["totalRecordNum"]}')
print(f'json_content.totalpages                = {json_content["totalpages"]}')
print(f'json_content.data.announcements.size() = {json_content["announcements"]}.size()')

for item in json_content["announcements"]:
    print(f'secCode = {item["secCode"]}, '
          f'secName = {item["secName"]}, '
          f'announcementTitle = {item["announcementTitle"]}')




运行结果:

在这里插入图片描述

  • 29
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
好的,我可以为您介绍一下如何使用 Python 爬虫爬取房产数据并保存到本地。 首先,您需要选择一个合适的网站来进行爬取。例如,可以选择链家网、安居客等房产网站。然后,您需要分析该网站的页面结构和数据请求方式,确定需要爬取哪些数据,以及如何获取这些数据。 接着,您可以使用 Python 的 requests 库来发送 HTTP 请求,获取网页内容。然后,可以使用 BeautifulSoup 库来解析网页内容,提取需要的数据。 最后,您可以使用 Python 的 Pandas 库将数据保存到本地的 Excel 或 CSV 文件中。以下是一个示例代码: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 发送 HTTP 请求获取网页内容 url = 'https://bj.lianjia.com/ershoufang/' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.content, 'html.parser') # 解析网页内容,提取需要的数据 house_list = soup.find_all('div', {'class': 'info'}) data = [] for house in house_list: name = house.find('div', {'class': 'title'}).text.strip() price = house.find('div', {'class': 'price'}).text.strip() area = house.find('div', {'class': 'houseInfo'}).text.strip() data.append([name, price, area]) # 将数据保存到本地文件 df = pd.DataFrame(data, columns=['名称', '价格', '面积']) df.to_excel('house_data.xlsx', index=False) ``` 这是一个简单的示例代码,您可以根据您需要爬取数据和网站的不同来进行修改和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

牛魔王的小怪兽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值