python 爬虫源码 selenium并存储数据库_[python爬虫] Selenium爬取内容并存储至MySQL数据库...

最新推荐文章于 2023-01-08 11:24:12 发布

颜不良文丑

最新推荐文章于 2023-01-08 11:24:12 发布

阅读量2.4k

点赞数

文章标签： python 爬虫源码 selenium并存储数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42493639/article/details/114400598

版权

本文介绍了使用Selenium爬取CSDN博客内容，并将其存储到MySQL数据库的过程。包括获取博客总页码、翻页、提取标题、摘要和时间信息，以及数据库操作和异常处理。提供了完整的Python代码示例。

摘要由CSDN通过智能技术生成

一. 爬取的结果

爬取的地址为：http://blog.csdn.net/Eastmount

爬取并存储至MySQL数据库的结果如下所示：

运行过程如下图所示：

二. 完整代码分析

完整代码如下所示：

# coding=utf-8

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import selenium.webdriver.support.ui as ui

import re

import time

import os

import codecs

import MySQLdb

#打开Firefox浏览器设定等待加载时间

driver = webdriver.Firefox()

wait = ui.WebDriverWait(driver,10)

#获取每个博主的博客页面低端总页码

def getPage():

print ‘getPage‘

number = 0

texts = driver.find_element_by_xpath("//div[@id=‘papelist‘]").text

print ‘页码‘, texts

m = re.findall(r‘(\w*[0-9]+)\w*‘,texts) #正则表达式寻找数字

print ‘页数：‘ + str(m[1])

return int(m[1])

#主函数

def main():

#获取txt文件总行数

count = len(open("Blog_URL.txt",‘rU‘).readlines())

print count

n = 0

urlfile = open("Blog_URL.txt",‘r‘)

#循环获取每个博主的文章摘信息

while n < count: #这里爬取2个人博客信息，正常情况count个博主信息

url = urlfile.readline()

url = url.strip("\n")

print url

driver.get(url)

#获取总页码

allPage = getPage()

print u‘页码总数为:‘, allPage

time.sleep(2)

#数据库操作结合

try:

conn=MySQLdb.connect(host=‘localhost‘,user=‘root‘,

passwd=‘123456‘,port=3306, db=‘test01‘)

cur=conn.cursor() #数据库游标</

最低0.47元/天解锁文章

颜不良文丑

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫源码 selenium并存储数据库_[python爬虫] Selenium爬取内容并存储至MySQL数据库...

一. 爬取的结果爬取的地址为：http://blog.csdn.net/Eastmount 爬取并存储至MySQL数据库的结果如下所示：运行过程如下图所示：二. 完整代码分析完整代码如下所示：# coding=utf-8from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。