python超级简单爬虫

最新推荐文章于 2024-08-06 09:49:30 发布

catchupwith2

最新推荐文章于 2024-08-06 09:49:30 发布

阅读量215

点赞数

分类专栏：网络爬虫

网络爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

初学者还是用bs4+urllib比较好的简单爬虫

[python]view plaincopy 
   
 #coding=utf-8  
 import sys  
 import time  
 import urllib  
 import urllib2  
 import requests  
 import numpy as np  
 from bs4 import BeautifulSoup  
 reload(sys)  
 sys.setdefaultencoding('utf8')  
 out=open("foodlist","w+")  
 def pachong(tag):  
     count=1  
   
     while 1:  
         url="http://home.meishichina.com/search/"+urllib.quote(tag)+"/"  
         tail="page/"+str(count)+"/"  
         if count!=1:url+=tail  
         time.sleep(np.random.rand()*2)  
   
         try:  
             print url  
             req=urllib2.Request(url)  
             source_code=urllib2.urlopen(req).read()  
             plain_txt=str(source_code)  
         except (urllib2.HTTPError,urllib2.URLError),e:  
             print e  
             continue  
   
         soup=BeautifulSoup(plain_txt)  
         list_soup=soup.find_all('div',{'class':'detail'})  
         if len(list_soup)==0:break  
         for i in range(len(list_soup)):  
             res=list_soup[i].find('h4')  
             title=res.text  
             res=list_soup[i].find('p',{'class':'subcontent'})  
             descrip=res.text  
             res=list_soup[i].find('div',{'class':'left'})  
             if res.text=="":myfrom="无"  
             else:myfrom=res.text.strip()  
             out.write(str(title)+'\t'+str(descrip)+'\t'+myfrom+'\n')  
         count+=1  
   
 pachong("火锅")  
 
   
 
 
  
  
 

catchupwith2

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python超级简单爬虫

初学者还是用bs4+urllib比较好的简单爬虫[python] view plain copy#coding=utf-8 import sys import time import urllib import urllib2 import requests import numpy as np from b
复制链接

扫一扫

专栏目录