网页版简单爬虫

Never_Forget_F

于 2020-08-12 16:48:50 发布

阅读量503

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/fengfeng_zhou/article/details/107961230

版权

本文介绍了网页版爬虫的基础知识，包括如何抓取网页数据，进行数据挖掘。

摘要由CSDN通过智能技术生成

网页版爬虫

#爬取requests/BeautifulSoup
import requests
import MySQLdb
from bs4 import BeautifulSoup
url = 'https://bj.lianjia.com/zufang/'#浏览器获取url
def get_page(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text,'lxml')
    return soup

#封装成函数，作用是获取列表下面所有租房页面的链接，返回一个链接列表；
def get_links(link_url):
    soup = get_page(link_url)
    links_div = soup.find_all('div',class_ = "content__list--item")
    links =