python爬虫 爬取网页时丢失网页正文内容

原因:是因为服务器分成两个网页发送给你,用fiddle抓包看,会有两个网页,而且有时候的哥网页和第二个网页不是同时给你,第二个网页要等好久才能在fiddle上看到,等第二个网页来了,观察器refer和request就会找到他们的联系。例子:

访问:http://www.hngp.gov.cn/anyang/content?infoId=1545632927740932&channelCode=H660203&bz=1

第二个网页:http://www.hngp.gov.cn/webfile/anyang/cgxx/bggg/webinfo/2018/12/1545632927658136.htm

会发现其实就是infold=后面的内容1545632927740932加入到第二个网页,前面的网页格式是一样的,都是这样。

python代码:

pattern=re.compile(r'infoId=([0-9]+)&')
                result=pattern.findall(notice['url'])
                url='http://sanmenxia.hngp.gov.cn/'+'webfile/sanmenxia/cgxx/bggg/webinfo/2018/12/'+result[0]+'.htm'
                req = requests.get(url, headers=self.header)
                req.encoding='utf-8'
                soup = BeautifulSoup(req.text, "html.parser")
                # todo 找到正文内容,正文内容不能包含标题
                rows = soup

 

取图片数据,数据丢失可能有多种原因。一种可能是网络连接问题,导致请求超或连接中断。另一种可能是服务器端的问题,比如请求的图片不存在或服务器限制了对图片的访问。此外,代码中的错误也可能导致数据丢失,比如请求参数错误、解析数据错误等。为了解决这个问题,可以采取以下几个步骤: 1. 检查网络连接:确保网络连接稳定,可以尝试使用其他网络环境或更换网络设备来测试。 2. 检查请求代码:确保代码中的请求参数设置正确,并正确处理请求的返回值。可以使用调试工具或打印日志来查看请求过程中的具体错误信息。 3. 检查服务器限制:有些网站会对爬虫进行限制,比如设置了反爬虫机制或访问限制。可以尝试使用代理IP、更改请求头信息或延等方式来规避这些限制。 4. 检查图片链接是否有效:可以手动访问图片链接,检查是否可以正常显示图片。如果图片链接失效或图片不存在,那么可能是数据源的问题,需要寻找其他可靠的数据源。 总之,在取图片数据,需要综合考虑网络环境、代码逻辑和数据源的因素,进行排查和调试,找出导致数据丢失的具体原因,并针对性地解决问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [基于爬虫数据完成数据展示网站](https://blog.csdn.net/Dennis_ww/article/details/118362610)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [python最新版2023爬虫代码,快速简洁,不仅可以当教程,还可以项目中使用](https://download.csdn.net/download/u012442504/88247076)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [python爬虫实践-取京东商品图片](https://blog.csdn.net/weixin_44725396/article/details/104414191)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值