其实很早就想知道如何将爬取到的数据存入数据库,并且实现前后台的交互功能,昨天刚刚看了一集关于爬数据并存数据的视频,今天,在这里总结一下~
以下为最终所需要爬取的信息:
由于需要爬取所有的二手商品信息,所以以下内容也要爬取到:
1.先写一个py文件,用于爬取上述图片类目导航的各个链接:
#-*-coding:utf-8-*-
from bs4 import BeautifulSoup
import requests
start_url = 'http://bj.58.com/sale.shtml'
url_host = 'http://bj.58.com'
def get_channel_urls(url):
wb_data = requests.get(start_url)
soup = BeautifulSoup(wb_data.text,'html.parser')
links = soup.select('ul.ym-submnu > li > b > a')
for link in links:
page_url = url_host + link.get('href')
print page_url
get_channel_urls(start_url)
#类目导航链接
channel_list = '''
http://bj.58.com/shouji/
http: