Python爬取大网站遇到的问题

最新推荐文章于 2022-12-15 12:43:14 发布

judy1017

最新推荐文章于 2022-12-15 12:43:14 发布

阅读量730

点赞数

分类专栏：爬虫 Python 文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/judy1017/article/details/42433377

版权

爬虫同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

Python

1 篇文章 0 订阅

订阅专栏

最近尝试了用: Python + urllib + Re爬取某大型网站数据（百万网页以上），中途碰到问题不少，粗略记录下：

1. 写一个正确的正则表达式：网页很多时，初版的正则可能会在爬中间某个网页时失效；

2. 对多样异常的处理：最开始对异常可能考虑不全面，后面抓的过程会碰到更多奇奇怪怪的 http异常，导致进程死掉；

3. 分片处理：当数据规模很大时，对输入最好分片，可以分开保存输出，也方便定位错误。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

judy1017

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬取网页不全_python爬虫系列简单静态网页爬取1

weixin_30359737的博客

01-24

908

不点蓝字，我们哪来故事？本篇文章讲述python爬虫如何爬取静态网页内容。思路：通过requests库获取网页内容通过其他库解析网页来提取所需要的内容保存我们以笔趣阁小说章节url为例首先分步实现获取网页内容importrequestsurl='http://www.biquge.info/10_10582/'source_page=requests.get(url).cont...

百度.py python 爬取百度搜索结果，及安全验证问题

11-16

python 爬取百度搜索结果，及安全验证问题

参与评论您还未登录，请先登录后发表或查看评论

爬取场库网站遇到的问题

繁星、晚风

08-31

1195

采用解析网页源码的方式然后通过xpath表达式去匹配视频的信息：标题、作者、图片的url、视频的url、评分、视频简介、点赞数、评论数、标签、类型。我在匹配这些信息时遇到两大问题：第一个问题：获取到网页源码之后，根本找不到视频的url，因为视频是通过js来播放的。很巧的是我发现了播放视频的关键代码。结果是这样的：用了xpath表达式和正则表...

python数据抓取遇到的问题报的错以及解决办法

青衫折扇的博客

03-19

624

scrapy爬取笔趣阁小说网在存储mysql数据库时报了一个低级错误：1136, "Column count doesn't match value count at row 1" 意思就是说存储的数据与数据库中所建字段不一致，海燕那长点心吧！！！在scrapy框架运行时会报下面的错误！！！ ImportError: DLL load failed: 找不到指定的模块。解决办法：pip...

Python，写爬虫时遇到的问题笔记（一）

一个努力飞行的菜鸟

09-08

416

python3 错误 Err

用python爬取中国大学排名的代码_我是Python网络爬虫的初学者，学到爬取一个看中国大学排名网站的数据时出了问题，能帮我看下吗，谢谢...

weixin_34154352的博客

02-12

148

题目描述爬取这个网站的中国大学排名数据题目来源及自己的思路于看视频时打出的代码相关代码import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url):try:r=requests.get(url,timeout=30)r.raise\\_for\\_status()r.encoding=r.apparent\\_...

用Python爬取高校导师主页信息_python爬虫_

09-29

本文将深入探讨如何使用Python爬取高校导师的主页信息，帮助学生或研究人员更有效地筛选和选择合适的指导老师。首先，我们需要了解Python爬虫的基本框架。Python中常用的爬虫库有BeautifulSoup、Scrapy和Requests...

python爬取招聘网信息并保存为csv文件

最新发布

04-02

在这个场景中，我们将学习如何使用Python来爬取招聘网站上的职位信息，并将其存储为CSV文件。以猎聘网为例，我们将介绍以下关键知识点： 1. **Parsel库**： Parsel是基于XPath和CSS选择器的Python库，用于从HTML或...

python爬取电影Top250数据并进行可视化分析.zip

01-06

在这个“python爬取电影Top250数据并进行可视化分析.zip”的项目中，我们主要探讨的是如何使用Python语言来获取互联网上的电影Top250排行榜数据，并对这些数据进行有效的处理和可视化展示。这个项目适合那些正在学习...

python爬取高德地图全国农贸市场数据，基于python3哈

02-26

python爬取高德地图全国农贸市场数据，自己写的，高德好像没有反爬的策略，我是没有遇到，按你们自己的需求改改就可以用了，基于python3哈

计网期末大作业.zip

12-27

计算机网络ENSP拓扑图

packet tracer计网大作业.docx

01-16

解决中国大学排名定向爬虫报错

tip2tip的博客

01-19

337

项目代码： import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return

网页过大，requests如何实现下载

落神的博客

09-22

422

最近爬虫遇到一个问题，被请求的url默认返回4条数据，为了节省请求的次数，修改了其中的参数，从而让它每次请求都可以返回50条数据实际实现的过程中，请求的的次数确实减少了，但是伴随着也出现了一个问题为了排查这个问题，浪费了我很长的时间，以为是程序出现了bug，最后看源码才查出原来是requests默认请求最大返回数据为10M，超过10M数据，数据就会缺失。其实，对于工作中，资源比较充足的公司来说，这个问题是不存在的，但是谁让我公司穷呢！所以为了节省购买IP、服务器等资源，只能从代码层做优化

Python网络爬虫抓不到全部的html内容怎么办

热门推荐

hubing_hust的专栏

12-15

1万+

Python网络爬虫抓不到全部的html内容怎么办？一种行之有效的解决方案是使用Selenium webdriver。详情请参考我的另一篇博文。

计算机网络课程大作业

太空紫云

07-20

2028

计算机网络大作业，先利用wireshark抓包保存文件，还有很多不足的地方，欢迎交流

计网大作业--SMTP邮件代理服务器

anewpunpkin的博客

01-03

2656

SMTP邮件代理服务器

python--只爬取网页中的文字或特定标签

Swallow_shangtou的博客

12-18

8947

from bs4 import BeautifulSoup html_sample=''' <div class="zg_head_box"> \ <div class="zg_head_bann clearfix"> <div class="zg_head_bann_left"> <ul class="zg_top_nav cl

关于爬取网站的信息遇到的有关问题

agfo89705的博客

10-10

477

问题一：在scrapy框架中，使用的xpath去获取网站信息，没能拿到？解决方法：xpath在scrapy框架中使用需要注意两件事：第一是使用的user-agent和你去获取的xpath，使用的浏览器需要相匹配；第二就是需要注意使用谷歌浏览器的时候一定要删去tbody标签，这样就基本可以成功爬取到东西了，（第一个事情是网上的其他人讲的，但是我不是很清楚，就当需要注意的事情吧；第二个是...

Python爬取淘宝手机数据：应对JavaScript动态加载

在Python爬取数据时，我们首先需要了解网页结构，以便确定数据所在的HTML元素。在本案例中，通过使用Firefox的Firebug工具，我们可以找到手机列表对应的HTML标签。然而，当查看网页源代码时，发现id为"main"的标签内...