安居客信息爬取

本篇是我第一次利用bs写的爬虫代码,爬取网址:http://beijing.anjuke.com/tycoon/p1/

每页的网址变量是p后的数字,可能因为这是老早之前写的代码了,所以现在一看,发现并没有什么难的,掌握基本要素即可。

废话不多说,直接上代码吧!吐舌头

#encoding=utf8
import re
import urllib
import urllib2
from bs4 import BeautifulSoup
for i in range(1,56):
  url='http://beijing.anjuke.com/tycoon/p'+str(i)
  user_agent="Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0"
  headers={"User-Agent":user_agent}
  request=urllib2.Request(url,headers=headers)
  response=urllib2.urlopen(request)
  html=response.read()
  bs=BeautifulSoup(html,"html.parser")
  data=bs.find_all("div",class_='jjr-itemmod')
  for xinxi in data:
        a=xinxi.find('div',class_='jjr-info').get_text("|",strip=True).encode('utf-8'+'|'+'\n')
        a=a.replace(' ','')
        a=a.replace('\n','')
        print a
        f=xinxi.find('div',class_='jjr-side').get_text("|",strip=True).encode('utf8')
        print f
        mm=open('k9p.txt','a+')
        mm.write(a+"|"+f+"\n")
        mm.close()



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值