简单爬虫

转载 2016年05月31日 19:56:09
import urllib.request  
import re  
  
########################################################  
#  
# fetch函数功能:抓取“陕西建筑招标网”的第一页“招标公告”页面,输出公告名字  
#   
#             参数baseUrl是要访问的网站地址   
#  
########################################################  
  
def fetch(baseUrl):  
  
    # 第1步:模拟浏览器发送请求  
    page = urllib.request.urlopen(baseUrl)
    data = page.read()
    data = data.decode('utf-8')    
  
    # 第2步:页面返回后,利用正则表达式提取想要的内容  
    nameList=[]  
    nameList = re.compile(r'target="_blank" title="(.*?)"',re.DOTALL).findall(data)  
  
    # 第3步:返回在页面上析取的“标题名”  
    return nameList  
      
#######     执行    ########   
if __name__ =="__main__":  
     
    #要抓取的网页地址  
    url = "http://sh.uzai.com/lvyoucn/shandong-r-5113.html?utm_source=baidu&utm_medium=cpc&utm_term=%E5%B1%B1%E4%B8%9C%E6%97%85%E6%B8%B8%E7%BD%91&utm_content=%E5%B1%B1%E4%B8%9C-%E9%80%9A%E7%94%A8&utm_campaign=%E6%96%B0%E4%B8%8A%E6%B5%B7-%E5%9B%BD%E5%86%85-%E5%B1%B1%E4%B8%9C"  
  
    #存放到名字列表中  
    NameList = fetch(url)  
  
    # 输出 NameList  
    Length = len(NameList)  
    for i in range(0, Length):  

        print("标题名%d:%s\n"%(i+1, NameList[i]))

#将信息保存到doc 文档

f = open("E:/data.doc", "w+")
for i in range(0, len(NameList)):
    f.write(NameList[i] + "\n")
f.close()

            

相关文章推荐

简单的爬虫实例

  • 2016-02-22 17:09
  • 545KB
  • 下载

一个简单的爬虫

  • 2013-04-10 22:58
  • 48KB
  • 下载

Python实现简单的爬虫

通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。     一,获取整个页面数据   首先我们...

美团网爬虫(简单)

  • 2012-08-24 17:49
  • 5.54MB
  • 下载

把玩之糗事百科简单页面信息爬虫

原文链接:静觅 » Python爬虫实战一之爬取糗事百科段子 这个例子是对糗事百科的简单页面爬虫,但是由于糗事百科已经改版,或许运行不成功,主要是为了学习下爬虫完整过程。后序会有改正:请等待。。...

nodejs简单爬虫

  • 2017-06-28 22:22
  • 616KB
  • 下载

java网络编程____最简单的爬虫(爬取网站美女图片)

package com.company.reptile; import java.io.BufferedReader; import java.io.DataInputStream; import ...

超简单BeautifulSoup爬虫

  • 2017-05-03 21:04
  • 699B
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)