Ptyhon爬虫实战(七):爬取汽车公告网上的批次排量等信息

原创 2017年09月08日 12:48:43

网址:http://www.cn357.com/notice/


直接上代码。


#coding=utf-8
import re
import requests

def getHtml(url):
    try:
        page = requests.get(url)
        html = page.text
        return html
    except:
        print ("网页访问异常")
        return ""

def getInfo(html):
    reg = re.compile(r".*?公告批次:(.*?),生产企业:.*?识别代号:(.*?),轴数:.*?发动机排量:(.*?),发动机功率:",re.S)
    items = re.findall(reg,html)
    for item in items:
        print("\t".join(list(map(str.strip,item))))


if __name__=='__main__':
    for i in range(1,61):
        url = "http://www.cn357.com/cvi.php?m=cvinotice&search=n&brand=%B1%F0%BF%CB&page=" + str(i)
        html = getHtml(url)
        getInfo(html)


相关文章推荐

Python学习笔记(二):tuple属性及方法浅析

元组是存放任意元素集合,不能修改其内容. 简单创建元组 In [1]: T = () #创建一个空的元组 In [2]: T Out[2]: () In [3]: T...

Python - 元组(tuple) 详解 及 代码

元组(tuple) 详解 及 代码 本文地址: http://blog.csdn.net/caroline_wendy/article/details/17290967 元组是存放任意元素集合...

Python 爬虫实战入门——爬取汽车之家网站促销优惠与经销商信息

在4S店实习,市场部经理让我写一个小程序自动爬取汽车之家网站上自家品牌的促销文章,因为区域经理需要各店上报在网站上每一家经销商文章的露出频率,于是就自己尝试写一个爬虫,正好当入门了。 ...
  • dy_guox
  • dy_guox
  • 2017年06月08日 16:08
  • 1613

python 爬虫学习三(Scrapy 实战,豆瓣爬取电影信息)

利用Scrapy爬取豆瓣电影信息主要列出Scrapy的三部分代码: spider.py文件: # _*_ coding=utf-8 _*_ import scrapy from course.do...

python爬虫实战 | 爬取豆瓣TOP250排名信息

爬取目标爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在txt文件中。最终实现效果如图: 注:这是在github上打开的效果,若用windows自带的记事本打开则会显示乱码。确...
  • linzch3
  • linzch3
  • 2017年03月16日 21:49
  • 2218

Python3爬虫实战:爬取大众点评网某地区所有酒店相关信息

历时一下午加一晚上,终于把这个爬虫代码写好,后面还有很多想完善的地方(譬如数据存储用redis、使用多线程加快速度、爬取图片、细分数据等等),待有空再做更改,下面是具体的步骤与思路: 工具:PyCha...

【Python爬虫】利用Selenium等待Ajax加载及模拟自动翻页,爬取东方财富网公司公告

1.背景 首先,打开东方财富网公司公告页面(“http://data.eastmoney.com/notices/”)。 单击右键,选择检查“长江电力”处的源代码,如图: 点击右键,查看源代码...

python爬虫--爬取youtobe红人信息

  • 2017年11月07日 17:34
  • 6KB
  • 下载

python+beautifulsoup+smtp爬取学院网站的信息公告+邮件发送

最近学习了利用python爬虫,甚是有趣。所以写了个试用的小程序分享出来。 学院的相关通知都会放在网站的信息公告上,但每天打开电脑->打开浏览器->打开学院网站,就为了看个信息公告,挺麻烦还容易忘记...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Ptyhon爬虫实战(七):爬取汽车公告网上的批次排量等信息
举报原因:
原因补充:

(最多只允许输入30个字)