初试爬虫,学习python也有一段时间了,想自己做个小项目实战锻炼一下,并在实战中总结。
之前在豆瓣小组找房子,由于标题信息很乱,而且要经常翻页,十分不方便,所以想做个豆瓣小组关键信息提取的程序
方便以后找房子。
所以第一步自然是先爬取信息啦。
爬取一个网页需要几步,拢共分三步:
第一步,import 一些需要的库
第二步,复制爬取的连接
第三步,稍微补充一下细节,完成!
from bs4 import BeautifulSoup #网页解析库,用于解析网页
import requests #网页请求库,联网发送网页请求
import time #定时库,用于延时
import pandas #数据分析库,用于储存爬取数据
#url = 'https://www.douban.com/group/106955/discussion?start=' #市小组
#url = 'https://www.douban.com/group/nanshanzufang/discussion?start=' #南山小组
#url = 'https://www.douban.com/group/futianzufang/discussion?start=' #福田小组
url = 'https://www.douban.com/group/baoanzufang/discus