python爬虫之多线程扒光北京新发地菜价

中意灬

于 2021-12-17 18:05:35 发布

阅读量1.8k

点赞数 14

分类专栏： python爬虫学习笔记文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55977554/article/details/122001769

版权

python爬虫学习笔记专栏收录该内容

13 篇文章 4 订阅

订阅专栏

所实验网址：

http://www.xinfadi.com.cn/priceDetail.html

首先对网页进行分析：
在这里插入图片描述
但是很显然，这些内容都不存在网页的源代码，所以这时候我们需要进行抓包

然后我们观察这个的url和请求方式，可以发现这是post类型，于是我们去找到他要传入的参数

我们通过点击下一页，具体看看哪些是需要传入的
在这里插入图片描述
我们会发现，current是我们需要具体传入的参数，而他就是代表页数，而这个limit是表示每页出现的数据量只能有20条。

我们分析完网页后，我们就可以开始编写程序了，那么直接上代码：（有点提示，如果嫌运行慢，可以多增加线程个数，比如把1000个线程改为10000，这样就会快很多）

# @Time:2021/12/1710:05
# @Author:中意灬
# @File:新发地.py
# @ps:tutu qqnum:2117472285
import csv
from  concurrent.futures import ThreadPoolExecutor
import requests
from bs4 import BeautifulSoup
with open('北京新发地菜价.csv',mode='w', encoding='utf-8',newline='') as f:
    wirter = csv.writer(f)#创建一个写入的对象
    wirter.writerow(['菜名', '最低价(元)', '最高价(元)', '平均价(元)', '产地','发布日期'])
    def get_one_page(pageNo):
        data={
            "limit":20,
            "current":pageNo,
        }
        url="http://www.xinfadi.com.cn/getPriceData.html"
        resp=requests.post(url,data=data)
        html=resp.json()
        list=html['list']
        # print(list)
        for i in list:
            if i['place']=='':
                i['place']='产地不详'
            wirter.writerow([i['prodName'],i['lowPrice'],i['highPrice'],i['avgPrice'],i['place'],i['pubDate']])
    if __name__ == '__main__':
        # get_one_page(1)
        with ThreadPoolExecutor(10000) as t:#创建10000个线程
            for i in range(1,20448):#所有页数
                t.submit(get_one_page,pageNo=i)
        print('over!')
        print('点赞不白嫖（狗头）')

运行结果：
在这里插入图片描述

关注

14
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
python爬虫之多线程扒光北京新发地菜价

所实验网址：http://www.xinfadi.com.cn/priceDetail.html首先对网页进行分析：但是很显然，这些内容都不存在网页的源代码，所以这时候我们需要进行抓包然后我们观察这个的url和请求方式，可以发现这是post类型，于是我们去找到他要传入的参数我们通过点击下一页，具体看看哪些是需要传入的我们会发现，current是我们需要具体传入的参数，而他就是代表页数，而这个limit是表示每页出现的数据量只能有20条。我们分析完网页后，我们就可以开始编写程序了，那
复制链接

扫一扫

专栏目录

中意灬 CSDN认证博客专家 CSDN认证企业博客

码龄3年

64: 原创

30万+: 周排名

134万+: 总排名

19万+: 访问

: 等级

1193: 积分

492: 粉丝

355: 获赞

141: 评论

1658: 收藏

私信

关注

热门文章

分类专栏

最新评论

python多因素电力预测——基于LSTM神经网络
DRHN_white: 数据可以发我一下吗？1991190693@qq.com
python爬虫之多线程扒光北京新发地菜价
茶馆大橘: An error occurred. Sorry, the page you are looking for is currently unavailable. Please try again later. If you are the system administrator of this resource then you should check the error log for details. Faithfully yours, nginx. 网页报错信息。然后我试了一下线程池的极限，我发现我开到2的时候，都会偶尔造成上述报错的发生，不知道如何解决这种情况。如果想要完整的爬取数据，还是只能单线程。
python爬虫之多线程扒光北京新发地菜价
茶馆大橘: 开太多进程服务器承受不了这么多请求，然后你会发现，虽然你爬取了两万多页数据，但是最后只拿到了2万条数据，原因就是 nginx服务器崩了
python短期电力预测——基于LSTM神经网络
统计我的爱: 大佬，数据集是不是被乱了呀，最后数据集的链接现在点进去时间成了乱码，总功率有好几个数据一看就不太对。大佬您现在还有原来的数据吗？
python短期电力预测——基于LSTM神经网络
中意灬: 这种情况把checkpoint的文件删除即可

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。