python爬虫导入数据库伪代码_python爬虫循环导入MySql数据库

weixin_39613951

于 2020-12-18 01:45:17 发布

阅读量442

点赞数

文章标签： python爬虫导入数据库伪代码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39613951/article/details/111455058

版权

这篇博客介绍了在Python 3.5.2和MySQL 5.5.53环境下，如何通过爬虫获取博客网站的数据并将其批量导入到MySQL数据库。作者首先分析了博客首页的分页链接，然后使用正则表达式提取所需信息，如标题、简介、发布时间和链接。接着，文章详细讲解了如何连接数据库和执行插入语句。最后，提醒读者注意反爬策略，如访问频率控制和代理IP池。

摘要由CSDN通过智能技术生成

1、开发环境

操作系统：win10 Python 版本：Python 3.5.2 MySQL：5.5.53

2、用到的模块

没有的话使用pip进行安装：pip install xxx xxx需要安装的模块

3、分析链接(博客官网：https://www.cnblogs.com/)

这里我们简单分析首页部分

经分析首页的分页系统链接变量是最后一个数字，所以可将访问的链接写成如下模式，这样执行的时候加个循环就能访问需要访问的所有页面内容

4、分析页面内容

整个页面咱们需要的信息是博主所发博客的信息，例如：

精确的的说是需要提取博客的标题，简介，发布时间以及博客链接

找到此页面按f12来审查元素

鼠标点下此箭头，然后放到页面内容上，找到咱们所查找的元素，在下面代码部分会出现相应的html：

鼠标右键，选择copy element,可将这块信息复制到文本，找个文本文档保存下来如下部分代码：

这个内容包含一个博客所有信息，接下来用正则提取我们需要的内容即可

5、正则表达式

title= re.compile('(.*?)是匹配到所有class为titlelnk的a标签，(.*?)是咱们提取的内容

6、链接数据库

db = pymysql.connect("127.0.0.1","root","root","crawler",charset="utf8")#打开数据链接，

pymysql.connect()里面前四个参数我就不多说了，charset="utf8"这个参数可省只是确保编码正确，不然有些环境下无法插入数据

cursorcursor= db.cursor()# 使用 cursor() 方法创建一个游标对象

7、MYSQL插入语句

8、整理代码

原理、代码都在这个，想提取所要内容，分析网站即可，当然并不是所有网站都能爬，特殊网站具有反爬措施，需要学习更多知识(访问频率控制，代理IP池等等)

weixin_39613951

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫导入数据库伪代码_python爬虫循环导入MySql数据库

1、开发环境操作系统：win10 Python版本：Python 3.5.2 MySQL：5.5.532、用到的模块没有的话使用pip进行安装：pip install xxx xxx需要安装的模块3、分析链接(博客官网：https://www.cnblogs.com/)这里我们简单分析首页部分经分析首页的分页系统链接变量是最后一个数字，所以可将访问的链接写成如下模式，这样执行的时...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。