简单爬虫

转载 2016年05月31日 19:56:09
import urllib.request  
import re  
  
########################################################  
#  
# fetch函数功能:抓取“陕西建筑招标网”的第一页“招标公告”页面,输出公告名字  
#   
#             参数baseUrl是要访问的网站地址   
#  
########################################################  
  
def fetch(baseUrl):  
  
    # 第1步:模拟浏览器发送请求  
    page = urllib.request.urlopen(baseUrl)
    data = page.read()
    data = data.decode('utf-8')    
  
    # 第2步:页面返回后,利用正则表达式提取想要的内容  
    nameList=[]  
    nameList = re.compile(r'target="_blank" title="(.*?)"',re.DOTALL).findall(data)  
  
    # 第3步:返回在页面上析取的“标题名”  
    return nameList  
      
#######     执行    ########   
if __name__ =="__main__":  
     
    #要抓取的网页地址  
    url = "http://sh.uzai.com/lvyoucn/shandong-r-5113.html?utm_source=baidu&utm_medium=cpc&utm_term=%E5%B1%B1%E4%B8%9C%E6%97%85%E6%B8%B8%E7%BD%91&utm_content=%E5%B1%B1%E4%B8%9C-%E9%80%9A%E7%94%A8&utm_campaign=%E6%96%B0%E4%B8%8A%E6%B5%B7-%E5%9B%BD%E5%86%85-%E5%B1%B1%E4%B8%9C"  
  
    #存放到名字列表中  
    NameList = fetch(url)  
  
    # 输出 NameList  
    Length = len(NameList)  
    for i in range(0, Length):  

        print("标题名%d:%s\n"%(i+1, NameList[i]))

#将信息保存到doc 文档

f = open("E:/data.doc", "w+")
for i in range(0, len(NameList)):
    f.write(NameList[i] + "\n")
f.close()

            

一个简单网络爬虫示例

在学生时期,可能听到网络爬虫这个词会觉得很高大上,但是它的简单实现可能学生都不难懂。 网络爬虫应用,就是把整个互联网真的就当做一张网,像蜘蛛网那样,应用就像一个虫子,在网上面按照一定的规则爬动。 现在...
  • wenhuayuzhihui
  • wenhuayuzhihui
  • 2016年02月04日 11:17
  • 10624

python简单爬虫例子(一)

环境与上一篇一样windows,editplus,python-2.7.6(且我前面文章有介绍过配置过程) 另外介绍一个抓包工具fiddler,超级好用的,特别是在以后你需要爬一些很复杂网站时。(不...
  • u010668907
  • u010668907
  • 2015年09月12日 21:25
  • 3798

Java简单爬虫示例

步骤简介 打开链接:URL类初始化给定网页链接,并调用openConnection()返回一个HttpURLConnection类的父类URLConnection实例。获取链接文本内容:URLCo...
  • u010642004
  • u010642004
  • 2015年12月01日 19:46
  • 327

用python写一个简单的爬虫功能

iOS开发如果之前没接触过除了c和c++(c++太难了,不花个十来年基本不可能精通)的语言,第二门语言最好的选择就是python.原因就是1.语法简单2.库太多,随便想要什么功能的库都找得到,简直编程...
  • jinglijun
  • jinglijun
  • 2016年02月20日 14:50
  • 22079

一个简单的python爬虫程序

简介在每次论文被拒再投的过程中,都需要查询最近的与自己论文相关的会议列表。每到这种情况,我一遍采用的是遍历会伴www.myhuiban.com的网站,然后逐个查看会议,关注的有三点,投稿日期,ccf类...
  • lipeng08
  • lipeng08
  • 2016年05月13日 13:55
  • 4492

Python实现简单爬虫功能

在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。...
  • qq_37267015
  • qq_37267015
  • 2017年05月06日 14:08
  • 909

简易Java爬虫制作

一、文章来由本来最近任务挺多,但是今天想放松一下,正巧Bill喜欢玩英语配音,而配音都是在配音软件的云上,我想把那些都拿到,于是就写一了一个爬虫,接着就有了这篇爬虫教程~~二、爬虫!!爬虫!!首先要搞...
  • Scythe666
  • Scythe666
  • 2015年08月07日 14:06
  • 4137

scrapy初探:写一个简单的爬虫

outline: 0 简介 1 工程的建立: 2 简单的爬虫 3 执行爬虫 4 文件下载 5 总结 0 简介 scrapy是一个爬虫框架。 该框架能够让我们集中在爬虫的核心处理上。但...
  • mmmmmk_
  • mmmmmk_
  • 2017年05月13日 12:53
  • 627

Java之——简单的网络爬虫实现

最近在学习搜索方面的东西,需要了解网络爬虫方面的知识,虽然有很多开源的强大的爬虫,但本着学习的态度,自己写了一个简单的网络爬虫,以便了解其中原理。 首先介绍每个类的功能: DownloadPage...
  • l1028386804
  • l1028386804
  • 2015年10月08日 23:46
  • 17522

一个简单地爬虫教程

功能:爬取目标网站全部主要图片(例子中是美图录网站的全部写真图片,按人名分类)本示例使用Python3.5,需要额外安装BeautifulSoup 4...
  • plank_root
  • plank_root
  • 2016年09月07日 19:06
  • 794
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:简单爬虫
举报原因:
原因补充:

(最多只允许输入30个字)