Python爬取京东手机信息

最新推荐文章于 2024-03-24 23:04:13 发布

乔代码嘚

最新推荐文章于 2024-03-24 23:04:13 发布

阅读量1.7k

点赞数 29

文章标签： python 智能手机开发语言

本文链接：https://blog.csdn.net/Trb701012/article/details/136254092

版权

一、观察网页

打开浏览器

找到京东手机分类下的网址https://list.jd.com/list.html?cat=9987%2C653%2C655&page=5&s=117&click=0

确认爬取的html页面是动态页面还是静态页面

方法一：通过翻页，网址在变化，说明为静态网页
方法二：在开发者工具中的网络中，选择与网址后缀名相同的链接，并通过搜索“华为”找到相关信息，说明为静态网页

二、导入第三方库
代码如下：

import requests   import pandas as pd   from bs4 import BeautifulSoup

三、请求数据

请求方式

在开发者工具中的标头中，查看请求方式为GET

伪装浏览器

需要用User-Agent伪装成浏览器，对反爬进行反制

for循环语句

代码如下：

data = []   for page in range(1, 11):       print(f"正在爬取第{page}页...")    # 打印当前运行的页面，方便查看爬虫进度       headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'}   # 构造请求头，模拟浏览器请求       response = requests.get(url.format(page), headers=headers)    # 发送请求并获取响应

四、解析数据

使用beautifulsoup4库来解析HTML内容并找到所有手机数据所在的标签。接着，遍历所有手机标签并通过try…except来处理异常（例如有些商品信息不全的情况），依次爬取商品名称、价格、链接和店铺信息，并将这些信息存储在一个列表中，代码如下：

soup = BeautifulSoup(response.text, 'html.parser')    # 解析HTML内容   goods_list = soup.find_all('li', class_='gl-item')    # 找出所有手机信息所在的标签   for goods in goods_list:    # 遍历所有手机信息标签       try:           name = goods.find('div', class_='p-name').find('a').text.strip()    # 找出手机名称           price = goods.find('div', class_='p-price').find('i').text.strip()    # 找出手机价格           link = 'https:' + goods.find('div', class_='p-name').find('a')['href']    # 找出手机链接           store = goods.find('div', class_='p-shop').find('a', target='_blank').text.strip()    # 找出手机店铺           data.append([name, price, link, store])    # 将手机信息存储在一个列表中       except:           continue    # 处理异常情况，例如有些商品信息不全的情况

五、存储数据

将列表转换为pandas中的DataFrame格式，调用to_excel方法将数据导出到Excel文件中，代码如下：

df = pd.DataFrame(data, columns=['名称', '价格', '链接', '店铺'])    # 将数据转换为DataFrame格式   df.to_excel('jd_phones.xlsx', index=False)    # 将数据导出到Excel文件中，不导出行索引

六、全套代码

import requests   import pandas as pd   from bs4 import BeautifulSoup      url = 'https://list.jd.com/list.html?cat=9987,653,655&page={}'      data = []   for page in range(1, 11):       print(f"正在爬取第{page}页...")    # 打印当前运行的页面，方便查看爬虫进度       headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'}   # 构造请求头，模拟浏览器请求       response = requests.get(url.format(page), headers=headers)    # 发送请求并获取响应       soup = BeautifulSoup(response.text, 'html.parser')    # 解析HTML内容       goods_list = soup.find_all('li', class_='gl-item')    # 找出所有手机信息所在的标签       for goods in goods_list:    # 遍历所有手机信息标签           try:               name = goods.find('div', class_='p-name').find('a').text.strip()    # 找出手机名称               price = goods.find('div', class_='p-price').find('i').text.strip()    # 找出手机价格               link = 'https:' + goods.find('div', class_='p-name').find('a')['href']    # 找出手机链接               store = goods.find('div', class_='p-shop').find('a', target='_blank').text.strip()    # 找出手机店铺               data.append([name, price, link, store])    # 将手机信息存储在一个列表中           except:               continue    # 处理异常情况，例如有些商品信息不全的情况      df = pd.DataFrame(data, columns=['名称', '价格', '链接', '店铺'])    # 将数据转换为DataFrame格式   df.to_excel('jd_phones.xlsx', index=False)    # 将数据导出到Excel文件中，不导出行索引