python简单爬虫实现

标题:python爬虫实现


一、网络爬虫的概论

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

二、网络爬虫的流程

在这里插入图片描述
①爬虫的第一个步骤就是对起始 URL 发送请求,以获取其返回的响应。
②返回的网页数据,我们需要进行解析,提取出自己想要的数据,就比如房屋的价格,可以指定对其进行提取。
③如果需要翻页或者进行二级页面爬取,则需要找到对应的url,保存下来,如不需要,可以直接保存,一般保存的是csv文件格式。

三、实际操作

1.导入包

import pandas as pd
from lxml import etree  
import requests
import re
import os
import time
import numpy as np

etree类主要是将html字符串转化为element对象,方便我们用xpath定位。
当然这里不仅仅只有这一种方法,还有BeautifulSoup库等等

2.设置一个请求头

代码如下(示例):

headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}

有些网站对爬虫有作一些反爬措施,所以为了反反爬,我们可以对我们网络爬虫的请求头做一些设定。你可以加入cookie,或者设置一个请求头的池,多久换一次请求头都是一个应对反爬措施的举措。而我这个地方只是简单的举个例子。

3.代码过程

在这里插入图片描述
可以通过网页看出,找到我们需要的信息,然后进行定位提取。


代码部分:

def get_info(html):
    comment_list = html.xpath('//*[@id="select_tab2"]/ul/li')
    comment = []
    for i in comment_list:
        item={}
        item['名字'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/h3/a/text()')))
        item['是否整租'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[1]/em[1]/text()')))
        item['住房类型'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[1]/em[2]/text()')))
        item['几室几厅'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[1]/em[3]/text()')))
        item['房屋面积'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[1]/em[4]/text()')))
        item['朝向'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[1]/em[5]/text()')))
        item['装修程度'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[1]/em[6]/text()')))
        item['地点'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[2]/em[1]/a/text()')))
        item['价格'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[3]/b/text()')))
        item['押金'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[4]/text()')))
        item['小区'] = re.sub("\s", "", ",".join(i.xpath('./div[2]/span[2]/em[2]/a[1]/text()')))
        comment.append(item)
    return comment

re模块
. 匹配任意1个字符(除了\n)
[ ] 匹配[ ]中列举的字符
\d 匹配数字,即0-9
\D 匹配非数字,即不是数字
\s 匹配空白,即空格,tab键
\S 匹配非空白
\w 匹配非特殊字符,即a-z、A-Z、0-9、汉字
\W 匹配特殊字符,即非字母、非数字、非汉字

这里采用xpath定位,采用re主要是想去除一些标签中的换行符’ \n '。

3.翻页实现和数据存储

在这里插入图片描述
从图片中画圈的部分可以看出,每一个页面翻页是通过page等于的数字决定的,因此我们可以通过改变page的值来进行翻页的实现。


代码部分:

for i in range(1,134):
    url = 'http://fangzi.xmfish.com/web/search_hire.html?&page={}'.format(i)
    rqq = requests.get(url)
    html = etree.HTML(rqq.content)
    comment = pd.DataFrame(get_info(html))
    print(comment)
    filename = '小鱼租房信息_2.csv'
    if os.path.exists(filename):  #这个地方主要是检测路径下的这个filename是否存在。
        comment.to_csv(filename,mode='a',header=False,index=0,encoding='utf-8')
    else:
        comment.to_csv(filename,index=0,header=True,encoding='utf-8')
    print('爬取第{}页成功'.format(i))
    time.sleep(np.random.randint(3,5))  #这个地方也是一个反反爬的小技巧,让你的爬虫休息一会,以防被检测。

注:并非是每一个网站都是如此翻页的,有些网页翻页方式是不一样的哦

3.结果展示

这个是爬取的文件
在这里插入图片描述
好了,有了有了,我们打开它
在这里插入图片描述
在这里插入图片描述

OK!!!
收工

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值