多线程多进程爬取房天下

  房天下的爬取本身没有技术难点,不做过多讲解。只讲一讲在爬取过程中遇到的反扒问题。
  房天下设置了页面的跳转作为反扒措施,即:在访问网页时会进行多次跳转才会进入到真正的目标页面。因此我编写了find_real_url来解决这个问题。在编写程序时,通过观察跳转页面的网页源码,可以比较容易的观察到跳转网页的源码中存在新的url,因此在爬取时通过正则表达式获取新的url并访问,直到目标页面中的目标元素出现,即:self.condition中的条件得到满足。

import requests
from bs4 import BeautifulSoup
from urllib import parse
import re
from concurrent.futures import ProcessPoolExecutor, ThreadPoolExecutor
from sqlalchemy import create_engine, Column, Integer, String
from sqlalchemy.orm import sessionmaker, scoped_session
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.exc import SQLAlchemyError

base = declarative_base()
engine = create_engine(
    'mysql+pymysql://root:1117@127.0.0.1:3306/house',
    max_overflow=500,
    pool_size=100,
    echo=False
)


class House(base):
    __tablename__ = 'House'
    id = Column(Integer, primary_key=True, autoincrement=True)
    house = Column(String(100))
    rent = Column(String(50))
    mode = Column(String(50))
    house_type = Column(String(50))
    area = Column(String(50))
    orientation = Column(String(50))
    floor = Column(String(50))
    decorate = Column(String(50))


# base.metadata.create_all(engine)


class HouseInformation(object):
    def __init__(self, region_index):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',
            'Cookie': 'global_cookie=o89u8zrl9wdc5k7uzktd7382n1ak7ha9uks; integratecover=1; __utmc=147393320; city=sh; ASP.NET_SessionId=rkismcpoktv1clyayleoz0sf; Rent_StatLog=3d24a513-78b7-4d99-b62d-67f5aa046cbe; keyWord_recenthousesh=%5b%7b%22name%22%3a%22%e6%b5%a6%e4%b8%9c%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a025%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e9%95%bf%e5%ae%81%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a020%2f%22%2c%22sort%22%3a1%7d%2c%7b%22name%22%3a%22%e9%9d%99%e5%ae%89%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a021%2f%22%2c%22sort%22%3a1%7d%5d; __utma=147393320.1053454490.1583565953.1583583445.1583586280.4; __utmz=147393320.1583586280.4.4.utmcsr=search.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/captcha-43be97b647ad9f449d/redirect; Captcha=4166566F4C5A66774C765173364F68745A767155766248786D2F507365567664484D6F334E55656C77576F6C34395330324B702F70594A7A503636455250783564706B4B6B3773705972343D; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; g_sourcepage=zf_fy%5Exq_pc; unique_cookie=U_o89u8zrl9wdc5k7uzktd7382n1ak7ha9uks*79; __utmb=147393320.12.10.1583586280',
            'Connection': 'keep_alive'}
        self.session = requests.session()
        self.session.headers = self.headers
        self.html = None
        self.condition = None
        self.url = None
        self.region = region_index
        self.info_dict = {}
        self.base_url = 'https://sh.zu.fang.com/house-a0'
        self.get_url()

    def get_html(self):
        self.condition = "len(self.html.select('div.houseList dl a')) != 0"
        self.find_real_url()
        part_url = self.html.select('div.houseList dl a')[0]['href']
        self.url = parse.urljoin(self.url, part_url)
        self.condition = "len(self.html.select('div.trl-item')) != 0"
        self.find_real_url()

    def get_url(self):
        self.url = self.base_url + str(self.region)
        url_region = self.url
        max_page = self.get_max_page()
        for page in range(1, max_page + 1):
            self.url = url_region + r'/i3{}'.format(page)
            with ThreadPoolExecutor(max_workers=max_page) as thread:
                print('线程池已建立')
                thread.submit(self.crawl)

    def get_max_page(self):
        self.condition = "len(self.html.select('span.txt')) != 0"
        self.find_real_url()
        max_page = int(self.html.select('span.txt')[0].text[1:-1])
        return max_page

    def find_real_url(self):
        self.html = BeautifulSoup(self.session.get(self.url).text, 'lxml')
        pattern = re.compile('location.href="(.*?)"', re.S)
        while not eval(self.condition):
            self.url = re.findall(pattern, str(self.html))[0]
            self.html = BeautifulSoup(self.session.get(self.url).text, 'lxml')

    def get_data(self):
        self.info_dict['house'] = self.html.select('div.title')[0].text.replace(' ', '').replace('\n', '').replace('\r',
                                                                                                                   '')
        self.info_dict['price'] = self.html.select('div.trl-item')[0].text.replace(' ', '').replace('\n', '')
        for index, info in enumerate(self.html.select('div.tt')):
            if index == 4:
                self.info_dict['楼层'] = info.text.replace(' ', '').replace('\n', '')
            self.info_dict[self.html.select('div.tt + div')[index].text] = info.text.replace(' ', '').replace('\n', '')

    def save_data(self):
        sqlsession = scoped_session(sessionmaker(engine))()
        try:
            house = House(house=self.info_dict['house'],
                          rent=self.info_dict['price'],
                          mode=self.info_dict['出租方式'],
                          house_type=self.info_dict['户型'],
                          area=self.info_dict['建筑面积'],
                          orientation=self.info_dict['朝向'],
                          floor=self.info_dict['楼层'],
                          decorate=self.info_dict['装修']
                          )
            sqlsession.add(house)
            sqlsession.commit()
            print('保存成功')
        except SQLAlchemyError:
            print('保存失败')
            sqlsession.rollback()

    def crawl(self):
        self.get_html()
        self.get_data()
        self.save_data()


if __name__ == '__main__':
    with ProcessPoolExecutor(max_workers=3) as process:
        for region in range(20, 25):
            print('进程池已建立')
            process.submit(HouseInformation, region)

### 回答1: Python是一种非常流行的编程语言,它具有众多优势,包括易学易用、开发效率高等。在数据爬取方面,Python也具有相对优势,可以通过多线程多进程来提高数据爬取效率。 多线程是一种将一个进程分为多个线程执行的技术,可以有效利用计算机的资源,同时完成多个任务。在数据爬取方面,可以将多个URL请求分配到不同的线程中去执行,从而实现同时请求多个URL,提高数据爬取速度和效率。 多进程则是将一个任务分为多个进程执行,每个进程有自己的资源和空间,在数据爬取方面,可以将不同的URL请求分配到不同的进程中去执行,这样可以充分利用计算机的多核处理器,同时完成多个任务,提高数据爬取效率。 在使用Python进行数据爬取时,需要根据实际的情况选用合适的多线程多进程方式来处理数据,其中需要注意线程间共享资源的问题,尤其是多个线程同时访问同一份数据时需要进行合理的控制和调度。 总的来说,通过使用Python多线程多进程技术,可以有效提高数据爬取效率,从而更好的服务于数据分析和应用。 ### 回答2: 随着互联网的发展,数据量爆炸式增长,数据爬取成为了许多公司和个人必不可少的工作。而对于数据爬取而言,效率和速度是非常重要的因素。因此,在进行大规模数据爬取时,采用多线程多进程技术可以大大提高爬取效率。 首先,我们来理解一下什么是多线程多进程多线程是在一个进程内开启多个线程,这些线程共享进程的资源,如内存等。多线程适合IO密集型的操作,如网络爬虫、文件读写等。而多进程则是在操作系统中开启多个进程,各自拥有独立的资源,如内存、文件等。多进程适合CPU密集型的操作,如图像识别、加密解密等。因此,在选择多线程还是多进程时,需要根据具体爬取任务进行考虑。 对于Python而言,它可以通过使用 threading 和 multiprocessing 模块来实现多线程多进程,分别引入 Thread 和 Process 两个类。而在网络爬虫中,多线程运行多个爬取任务,可以大大提高页面的下载速度。在爬虫程序中,我们可以通过 Python 对于 urllib 和 requests 模块进行多线程异步请求,利用 Python 线程池 ThreadPoolExecutor 和 asyncio 模块的异步特性,实现高性能网络爬虫。 另外,在进行数据爬取时,需要注意反爬机制,如设置合适的请求头、降低请求频率等。同时,也需要注意保持数据的一致性和准确性。在使用多线程多进程进行数据爬取时,也需要注意线程和进程间的交互和同步,如使用队列等数据结构进行数据共享、使用锁机制进行数据的同步等。 综上所述,Python 多线程多进程爬取大量数据可以提高爬取效率和速度,但也需要根据具体任务进行选择。同时,在进行数据爬取时需要注意反爬机制和数据的一致性和准确性,保证数据的安全和可信度。 ### 回答3: Python作为一种高级编程语言,在数据采集和分析方面具有优秀的表现。为了能更快地完成数据爬取任务,Python可以使用多线程多进程方式。下面我们来介绍一下这两种方式具体的特点和使用方法。 首先,Python多线程方式是通过创建多个线程来同时执行任务,这些线程共享同一个进程空间,因此可以用来提高数据爬取效率。在多线程模式下,每个线程都有自己的任务和数据,这些线程可以并行地执行,从而大大提升了数据爬取的速度。同时,多线程也可以实现类似于并发、异步的效果,因为每个线程都可以独立地进行访问和解析等操作。 然而,在Python中使用多线程还是存在一些限制的。由于GIL(Global Interpreter Lock)的限制,多线程模式不能充分利用多核CPU的优势,因为这些线程都是在同一个进程中运行的,而GIL只允许有一个线程在同一时间内执行Python代码。因此,在需要利用多核CPU的情况下,需要使用多进程方式。 基于多进程的方式,可以将一个任务划分为若干个子任务,每个子任务运行在独立的进程中,它们之间互不干扰。这样,每个进程都可以利用独立的CPU核心来执行任务,从而提高了并发性和整体运行效率。而且,在多进程模式下,Python可以很好地利用操作系统的资源管理功能,同时能够充分利用硬件资源,实现高效的数据爬取。 总的来说,Python多线程多进程方式都可以用来实现数据爬取,并且都有各自的优点和适用场景。在实际应用中,应该根据任务的复杂度和硬件环境等因素来选择最适合的方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值