爬取某网站写的python代码

   代码如下:

 

import requests
from pyquery import PyQuery
import re
import os
import csv
import datetime
"""
    说明:该代码是专门为爬取http://www.kgtmall.com.cn/商品而设计的。
    使用方法:
        1、在本地提前安装好python3的环境;
        2、直接运行本代码;
        3、运行本代码完后,会在当前目录生成一个result.csv文件,该文件里面就存了爬取该站点的商品信息
    注意事项:在本代码运行期间,不能打开result.csv文件,因为这样程序就写不进去数据了;只能等本代码
            全部运行结束后,才能打开esult.csv文件进行查看。
    
"""
def get_html_text(url):
    """
    获取首页源代码
    :param url:
    :return:
    """
    r = requests.get(url)
    return r.text
def get_one_level_class(home_url):
    """
    一级标题
        母婴用品 http://www.kgtmall.com.cn/mall/list.php?catid=4
        生活家居 http://www.kgtmall.com.cn/mall/list.php?catid=5
    """
    html = get_html_text(home_url)
    jpy = PyQuery(html)
    items = jpy('.menu_title a')
    for line in items:
        jpy = PyQuery(line)
        one_level_url = jpy('a').attr('href')
        one_level_title = jpy('a').text()
        yield one_level_url, one_level_title
def get_two_level_class(home_url):
    """
    二级标题
        母婴用品 营养辅食 http://www.kgtmall.com.cn/mall/search.php?catid=539
        母婴用品 妈妈专区 http://www.kgtmall.com.cn/mall/search.php?catid=544
        母婴用品 婴儿保健 http://www.kgtmall.com.cn/mall/sear
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值