python超级简单爬虫

初学者还是用bs4+urllib比较好的简单爬虫

[python]  view plain  copy
  1. #coding=utf-8  
  2. import sys  
  3. import time  
  4. import urllib  
  5. import urllib2  
  6. import requests  
  7. import numpy as np  
  8. from bs4 import BeautifulSoup  
  9. reload(sys)  
  10. sys.setdefaultencoding('utf8')  
  11. out=open("foodlist","w+")  
  12. def pachong(tag):  
  13.     count=1  
  14.   
  15.     while 1:  
  16.         url="http://home.meishichina.com/search/"+urllib.quote(tag)+"/"  
  17.         tail="page/"+str(count)+"/"  
  18.         if count!=1:url+=tail  
  19.         time.sleep(np.random.rand()*2)  
  20.   
  21.         try:  
  22.             print url  
  23.             req=urllib2.Request(url)  
  24.             source_code=urllib2.urlopen(req).read()  
  25.             plain_txt=str(source_code)  
  26.         except (urllib2.HTTPError,urllib2.URLError),e:  
  27.             print e  
  28.             continue  
  29.   
  30.         soup=BeautifulSoup(plain_txt)  
  31.         list_soup=soup.find_all('div',{'class':'detail'})  
  32.         if len(list_soup)==0:break  
  33.         for i in range(len(list_soup)):  
  34.             res=list_soup[i].find('h4')  
  35.             title=res.text  
  36.             res=list_soup[i].find('p',{'class':'subcontent'})  
  37.             descrip=res.text  
  38.             res=list_soup[i].find('div',{'class':'left'})  
  39.             if res.text=="":myfrom="无"  
  40.             else:myfrom=res.text.strip()  
  41.             out.write(str(title)+'\t'+str(descrip)+'\t'+myfrom+'\n')  
  42.         count+=1  
  43.   
  44. pachong("火锅")  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值