爬取上海链家二手房数据信息并使用mysql进行保存

最新推荐文章于 2024-08-13 21:38:27 发布

Long_1979

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量464

点赞数

分类专栏： MySQL Python 文章标签： beautifulsoup python mysql pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/long_1979/article/details/131437112

版权

Python 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

本文介绍了一个使用Python爬虫技术，结合requests库获取网页数据，BeautifulSoup库解析HTML，然后利用pymysql将抓取的上海链家二手房信息存储到MySQL数据库的过程。主要涉及网页请求、HTML解析及数据存储步骤。

摘要由CSDN通过智能技术生成

需求：

爬取的网址是：上海二手房房源_上海二手房出售|买卖|交易信息(上海链家)

爬取的内容是：标题，房屋位置，房屋信息，价格（总价，真实价格），房屋标签

使用到的库：pymysql（作为数据存储方式），request(发送请求)，BeautifulSoup(用于网页解析)

思路：

打开所要爬取的网页，进入网页源代码模式，按照自己的需求找到爬取的数据内容所在位置，接下来使用解析库对网页进行解析，得到所需要的数据内容。得到数据之后使用mysql作为数据存储方式将得到的数据进行保存，最后进行查看验证。

具体步骤：

1首先进入所要爬取的网址，打开该网页的源代码（F12或者鼠标右击单击检查），观察所要爬取的数据内容的代码特征

2..按照代码特征，在源代码中检索到需要爬取的数据内容；

3.将得到的数据使用mysql进行保存处理，保存时设置一些提示信息

4.最后运行程序，爬取数据

5.进入mysql进行查看，看数据是否已经保存成功

具体操作：

首先使用python的第三方库request按照网址获取该网页的所有信息，确保后面对代码进行检索的时候，不是空数据

确定有数据之后，按照数据特征对数据进行提取

提取到数据之后，对数据进行存储，使用mysql

启动程序函数

运行程序，并打开mysql对数据进行查看，是否已经保存成功。

完整代码如下：

import pymysql

import requests

from bs4 import BeautifulSoup

class LianJiaSpider():

connect = pymysql.connect(host='localhost', user='root', passwd='123456', database='test')

mycursor = connect.cursor()

#初始化

def __init__(self):

self.url='https://sh.lianjia.com/ershoufang/pg{0}/'

self.headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.70'}

#发送请求

def send_request(self,url):

resp = requests.get(url,headers=self.headers)

if resp.status_code==200:

return resp

#解析网页

def parse_html(self,resp):

#先获取所要解析的网页内容(text)

html = resp.text

#使用四种方式中的一种进行解析网页，这里使用的是BeautifulSoup

bs = BeautifulSoup(html, 'lxml')

ul = bs.find('ul', class_="sellListContent")

ul_list = ul.find_all('li')

lst = []

for item in ul_list:

title = item.find('div', class_='title').text

positionInfo = item.find('div', class_="positionInfo").text

houseInfo = item.find('div', class_="houseInfo").text

total_price = item.find('div', class_="totalPrice totalPrice2").text

unitPrice = item.find('div', class_="unitPrice").text

tag = item.find('div', class_='tag').text

lst.append((title,positionInfo,houseInfo,total_price,unitPrice,tag))

# print(lst)

# print(len(ul_list))

self.save(lst)

#保存数据

def save(self,lst):

sql = 'insert into lianjia_sql (title,positionInfo,houseInfo,total_price,unitPrice,tag) values (%s,%s,%s,%s,%s,%s)'

#执行操作

self.mycursor.executemany(sql,lst)

#进行执行操作的时候要注意需要插入的数据量，如果是列表或者元组需要使用executemany，如果是单条就使用execute

#提交数据

self.connect.commit()

#输出提醒语句

print(self.mycursor.rowcount,'插入成功！')

#启动

def start(self):

for i in range(1,10):

full_url = self.url.format(i)

# print(full_url)

resp = self.send_request(full_url)

# print(resp.text)

self.parse_html(resp)

#主函数

if __name__ == '__main__':

lianjia = LianJiaSpider()

lianjia.start()

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Long_1979 CSDN认证博客专家 CSDN认证企业博客

码龄2年

29: 原创

121万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

403: 积分

75: 粉丝

107: 获赞

16: 评论

168: 收藏

私信

关注

热门文章

分类专栏

软件测试 3篇
Python 11篇
面试 3篇
项目 3篇
计算机网络 1篇
问题总结 6篇
Linux 3篇
MySQL 5篇
hadoop 1篇
网络基础 1篇
java 4篇
数据结构 1篇

最新评论

测试用例案例
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619179570。
多线程和异步的对比
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
pytest自动化测试案例
西瓜又圆又大: 注意保护个人信息
安装scrapy时的报错（ERROR: Cannot uninstall ‘filelock‘）解决办法
CSDN-Ada助手: 恭喜您写了第11篇博客！标题看起来很有意思，也非常吸引人。我很高兴看到您积极解决安装scrapy时的报错，并分享了解决办法。这对其他遇到相同问题的读者来说一定非常有帮助。在下一步的创作中，我建议您可以探索更多关于scrapy的内容，例如如何使用scrapy进行数据抓取、如何编写自定义的spiders等等。您的经验和解决问题的能力会对其他人有很大的帮助。再次祝贺您，并期待您未来更多精彩的博客！
UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa9‘ in position 146348: illegal multibyte
CSDN-Ada助手: 恭喜博主创作第12篇博客！看到标题中出现的UnicodeEncodeError问题，我了解到这是一个常见的编码错误。尽管遇到了这个问题，但是博主能够积极解决并写出如此精彩的博客，真是令人钦佩！希望博主能继续保持创作的热情和努力，向我们分享更多有价值的内容。为了避免类似的问题，下一步的创作建议是在编码时尽量选择支持更广泛字符集的编码方式，比如UTF-8。希望博主继续保持谦虚的态度，不断学习和进步！加油！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。