selnna-CSDN博客

原创 ImportError: sys.meta_path is None, Python is likely shutting down 解决方案

ImportError: sys.meta_path is None, Python is likely shutting down 解决方案

2022-06-27 11:10:12 5626 2

今天使用的是异步爬取西游记每一个章节的内容。思维逻辑是1.同步爬取西游记每个章节的标题和对应编号2.然后根据每个章节的编号异步爬取章节介绍内容。 #https://dushu.baidu.com/api/pc/getCatalog?data={%22book_id%22:%224306063500%22} #{title: "第一回灵根育孕源流出心性修持大道生", price_status: "0", cid: "11348571"} #https://dushu.baidu.com/api/pc/ge

2021-08-22 19:35:31 218

原创 2021-08-20

今天学习的是异步爬取图片。接下来先把异步的大体框架写一下 """ input()程序也是处于阻塞状态 request.get(url)在网络请求返回数据之前，程序也是处于阻塞状态的一般情况下，当程序处于I/O操作的时候，线程就会处于阻塞状态 """ import asyncio """ 协程：当程序遇见了IO操作的时候，可以选择性的切换到其他任务上。在微观上，是一个任务一个任务的进行切换，切换条件一般就是IO操作在宏观上，我们能看到的其实是多个任务一起执行多任务异步操作 #都是在单线程的条件下

2021-08-20 17:58:12 197

原创多线程爬虫

今日份作业，今天爬取的是有关于菜价的数据。今天遇到的问题是自己爬取下来的页面与页面检查中Elements不一致，这个是有关于网页的一些知识，还得补这些知识????????????，越学越觉得自己菜。 """ 逻辑 1.如何提取单个页面的数据 2.上线程池，多个页面同时抓取 """ import requests import json import csv from concurrent.futures import ThreadPoolExecutor """ import requests import

2021-08-18 18:45:28 159

原创 2021-08-08

今天的作业，爬取是一些电影数据。也是遇到了一些问题，搞了一上午，真是把我气坏了) 问题描述：弄出来的数据总是出来一半之后就开始报错，和我作死。原因是之前在提取子页面这部分我使用的是result3=obj3.search() 在后期有一个页面自身不包含我匹配的信息，在那就自动报错了。所以后来我改成result3=obj3.finditer(),自动跳过那个页面。就顺利全爬出来 #1.定位到2021必看热片 #2.从2021必看热片中提取到子页面的链接下载地址 #3.请求子页面的链接地址。拿到我们想要的

2021-08-08 12:22:57 280

原创 2021-08-04

今天又爬取一些资源，仅仅是自己会动态翻页爬取，中间遇到一些问题记录下来，仅供之后学习参考，如有错误之处，请指出~ import requests import re import csv for start in range(0,51,25): print('------------------正在抓取第{}页数据-----------------------'.format(start)) url="https://movie.XXXX.com/top250?start={}&fi

2021-08-04 21:40:15 100

原创爬虫数据可视化

爬虫-可视化界面柱状图交作业啦，最近在学习爬虫，由于基础性学习太慢，对于我这种急性子的人直接去 B站找了一个完整的例子直接上手做了。就是爬取一个页面的内容，并把爬取下来的数据可视化，用柱状图直观表示出来。直接上代码吧 import requests import pprint import csv file = open('data.csv', mode='a', encoding='utf-8', newline='') #a表示数据的追加 csv_write = csv.DictWriter(f

2021-07-31 09:33:13 6495 1

selnna的博客

原创数据交易--国家标准整理