用Jupyter—Notebook爬取网页数据实例6

最新推荐文章于 2024-05-27 13:16:19 发布

HongMeng07

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量4k

点赞数 3

分类专栏：学习实例

本文链接：https://blog.csdn.net/HongMeng07/article/details/109758722

版权

学习实例专栏收录该内容

13 篇文章 15 订阅

订阅专栏

用selenium库爬取中国红娘网

一、爬取过程分析
在这里插入图片描述

二、代码汇总

#引入selenium、 pandas、openpyxl库
from selenium import webdriver
import pandas as pd
import openpyxl
#定义存储变量
nicheng=[]
diqu=[]
hunyin=[]
shengao=[]
dubai=[]
#获取网页源代码
for i in range(1,6):
    url='http://www.hongniang.com/match?&page='+str(i)
    browser=webdriver.Chrome()
    browser.get(url)
#解析源代码，提取所需数据信息
    for i in browser.find_elements_by_class_name('pin'):
        nicheng.append(i.find_elements_by_class_name('name')[0].text)
        diqu.append(i.find_elements_by_class_name('xx')[0].find_elements_by_tag_name('span')[1].text)
        hunyin.append(i.find_elements_by_class_name('xx')[0].find_elements_by_tag_name('span')[2].text)
        shengao.append(i.find_elements_by_class_name('xx')[0].find_elements_by_tag_name('span')[3].text)
        dubai.append(i.find_elements_by_class_name('db')[0].text[5:].replace('\n',''))
pd.DataFrame({'昵称':nicheng,'地区':diqu,'婚姻状况':hunyin,'身高':shengao,'独白':dubai}) 
data=pd.DataFrame({'昵称':nicheng,'地区':diqu,'婚姻状况':hunyin,'身高':shengao,'独白':dubai}) 
writer=pd.ExcelWriter('hongnian.xlsx')
data.to_excel(writer,'爬虫数据')
writer.save()

爬取结果

HongMeng07

关注

3
点赞
踩
39

收藏

觉得还不错? 一键收藏
2
评论
用Jupyter—Notebook爬取网页数据实例6

用selenium库爬取中国红娘网一、爬取过程分析二、代码汇总#引入selenium、 pandas、openpyxl库from selenium import webdriverimport pandas as pdimport openpyxl#定义存储变量nicheng=[]diqu=[]hunyin=[]shengao=[]dubai=[]#获取网页源代码for i in range(1,6): url='http://www.hongniang.com
复制链接

扫一扫