python爬虫 爬取网页时丢失网页正文内容

原因:是因为服务器分成两个网页发送给你,用fiddle抓包看,会有两个网页,而且有时候的哥网页和第二个网页不是同时给你,第二个网页要等好久才能在fiddle上看到,等第二个网页来了,观察器refer和request就会找到他们的联系。例子:

访问:http://www.hngp.gov.cn/anyang/content?infoId=1545632927740932&channelCode=H660203&bz=1

第二个网页:http://www.hngp.gov.cn/webfile/anyang/cgxx/bggg/webinfo/2018/12/1545632927658136.htm

会发现其实就是infold=后面的内容1545632927740932加入到第二个网页,前面的网页格式是一样的,都是这样。

python代码:

pattern=re.compile(r'infoId=([0-9]+)&')
                result=pattern.findall(notice['url'])
                url='http://sanmenxia.hngp.gov.cn/'+'webfile/sanmenxia/cgxx/bggg/webinfo/2018/12/'+result[0]+'.htm'
                req = requests.get(url, headers=self.header)
                req.encoding='utf-8'
                soup = BeautifulSoup(req.text, "html.parser")
                # todo 找到正文内容,正文内容不能包含标题
                rows = soup

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值