python爬取大量数据报错_Python学习笔记7——爬取大规模数据

本文介绍了如何使用Python爬取大规模数据,包括从赶集网抓取1级和2级商品链接,解析详情页链接,并通过多进程进行数据爬取。文章详细阐述了每个步骤,如利用requests和BeautifulSoup进行网页请求和解析,以及如何处理可能的错误和数据存储。
摘要由CSDN通过智能技术生成

我们在爬取数据时,往往是连续爬取上百个页面,本篇以爬取赶集网为例,爬取大规模的数据。步骤如下:

爬取1级商品链接

爬取2级详情信息

爬取商品详情页

多进程爬取数据

一、爬取1级商品链接

新建一个Python文件,名字命名为my_channel_extracing,用于抓取大类商品链接。以抓取赶集网http://bj.ganji.com/wu/上二手商品为例,右侧的各类商品便是我们需要抓取的大类商品。

大类链接.jpg

①request页面

引入requests对http://bj.ganji.com/wu/进行访问,并输出打印结果,查询是否访问成功。

代码如下:

import requests

url='http://bj.ganji.com/wu/'

wb_data = requests.get(url)

print(wb_data.text)

requests页面

②解析页面

引入BeautifulSoup对网页进行解析,打印输出结果,查看网页解析是否成功。

代码如下:

import requests

from bs4 import BeautifulSoup

url='http://bj.ganji.com/wu/'

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text.'lxml')

print(soup)

解析网页

③爬取大类链接

检查需要爬取的网页,定位链接位置,利用for循环输出所爬取的链接。通过观察网页,能发现网页的绝对路劲为http://bj.ganji.com,定义网页绝对路劲,最终输出完整的爬取页面。

import requests

from bs4 import BeautifulSoup

host_url = 'http://bj.ganji.com'#定义网页绝对路径

url = 'http://bj.ganji.com/wu/'

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text,'lxml')

links = soup.select('#wrapper > div.content > div > div > dl > dt > a')

for link in links:

print(host_url+i.get('href'))

爬取大类链接

二、爬取2级商品链接

①爬取2级商品链接

将爬取的1级商品链接放入page_link,通过解析page_link,并再次利用for函数,输出2级商品链接。

import requests

from bs4 import BeautifulSoup

host_url = 'http://bj.ganji.com'#定义网页绝对路径

url = 'http://bj.ganji.com/wu/'

wb_data = requests.get(url)

soup = BeautifulSoup(wb_data.text,'lxml')

links = soup.select('#wrapper > div.content > div > div > dl > dt > a')

for link in links:

page_link = host_url + link.get('href')#1级网页

wb_data = requests.get(page_link)

soup = BeautifulSoup(wb_data.text,'lxml')

type_links = soup.select('#seltion > div > dl > dd

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值