代码如下:
import requests
from pyquery import PyQuery
import re
import os
import csv
import datetime
"""
说明:该代码是专门为爬取http://www.kgtmall.com.cn/商品而设计的。
使用方法:
1、在本地提前安装好python3的环境;
2、直接运行本代码;
3、运行本代码完后,会在当前目录生成一个result.csv文件,该文件里面就存了爬取该站点的商品信息
注意事项:在本代码运行期间,不能打开result.csv文件,因为这样程序就写不进去数据了;只能等本代码
全部运行结束后,才能打开esult.csv文件进行查看。
"""
def get_html_text(url):
"""
获取首页源代码
:param url:
:return:
"""
r = requests.get(url)
return r.text
def get_one_level_class(home_url):
"""
一级标题
母婴用品 http://www.kgtmall.com.cn/mall/list.php?catid=4
生活家居 http://www.kgtmall.com.cn/mall/list.php?catid=5
"""
html = get_html_text(home_url)
jpy = PyQuery(html)
items = jpy('.menu_title a')
for line in items:
jpy = PyQuery(line)
one_level_url = jpy('a').attr('href')
one_level_title = jpy('a').text()
yield one_level_url, one_level_title
def get_two_level_class(home_url):
"""
二级标题
母婴用品 营养辅食 http://www.kgtmall.com.cn/mall/search.php?catid=539
母婴用品 妈妈专区 http://www.kgtmall.com.cn/mall/search.php?catid=544
母婴用品 婴儿保健 http://www.kgtmall.com.cn/mall/sear