利用Python爬虫爬取你需要的网页——加速打开速度

  代码来自于Python核心编程,运行环境为Python2.7+macOS。直至2月16日运行无误。代码中有核心代码注释,如需更详细的解释,请去书本内容观看。话不多说,直接上码。

#!/usr/bin/env python
import cStringIO
import formatter
from htmllib import HTMLParser
import httplib
import os
import sys
import urlparse
import urllib
#urllib:使用其中的urlparse()函数来下载Web页面。urlparse:使用其中的urlparse()和urljoin()函数来处理URL
class Retriever(object):
    __slots__ = ('url','file')#__slot__变量表示实例只能拥有self.url和self.file属性
    def __init__(self,url):
        self.url,self.file=self.get_file(url)


    def get_file(self,url,default='index.html'):
        'Create usable local filename from url 将URL的前缀http://前缀移除,丢掉任何为获取主机名二附加的额外信息,如用户名、密码和端口号'
        parsed=urlparse.urlparse(url)
        host=parsed.netloc.split('@')[-1].split(':')[0]
        filepath='%s%s' %(host,parsed.path)
        if not os.path.splitext(parsed
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Python爬虫懂车帝网页数据,你可以按照以下步骤进行操作: 1. 首先,你需要导入所需的库和模块。常用的库包括requests和beautifulsoup4,用于发送HTTP请求和解析HTML页面。你还可以使用其他库来处理数据和存储结果,如pandas或sqlite3。 2. 接下来,你需要发送HTTP请求获懂车帝网页的内容。可以使用requests库的get方法来发送GET请求,并指定目标URL。通过观察懂车帝网页的结构,你可以确定要的数据在哪个URL上。 3. 一旦获网页的内容,你可以使用beautifulsoup4库来解析HTML页面。使用beautifulsoup4的select或find方法选择要提的数据所在的HTML元素。根据引用,你可以使用json()方法来解析返回的JSON数据。 4. 如果需要登录或在请求中使用特定的header来绕过反措施,可以参考引用中提到的添加header的方法。 5. 解析和提数据后,你可以根据需要进行处理和分析。你可以使用pandas库将数据存储为DataFrame,并进行进一步的数据分析。如果你希望将数据存储在数据库中,可以使用sqlite3库或其他适合的数据库库。 综上所述,你可以使用Python爬虫技术来懂车帝网页数据。首先发送HTTP请求获网页内容,然后使用beautifulsoup4库解析和提所需的数据。最后,你可以使用pandas库进行数据处理和分析,或使用sqlite3库将数据存储在数据库中。希望这些步骤对你有帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值