使用python爬虫为wordpress采集内容 felix_使用python爬虫为wordpress采集内容

本文介绍如何使用Python爬虫为WordPress采集并发布内容。通过requests、lxml库爬取网页,pymysql库操作数据库直接提交文章。详细阐述了从连接数据库、构建SQL语句到爬取小说网站内容的实现过程,并提供了添加分类的可选方法。
摘要由CSDN通过智能技术生成

生命不止,折腾不停,最近开始接触了wordpress,发现wordpress真的做得很不错,有很多地方值得学习,很多地方也设置得非常巧妙。在刚安装完了wp后就会有一篇“世界你好”的文章,有点空荡荡,所以我在想可不可用python为wordpress采集一些内容再自动发布上去呢,那么话不多说,让我们开干吧

一、所需库与模块

requests 是一个模拟http请求的库,我们用它来爬取网页。

lxml 是一个解析HTML与XML的库,我们用它来解析网页内容

pymysql 是一个操作MySql的库,我们用它来上传内容到wordpress的数据库

time 是python内置的一个处理时间的模块,我们用它来设置爬取网页的间隔时间

random 是一个python内置的生成随机数的模块,我们用它来生成随机的间隔时间

xpinyin 是一个将汉字转换成拼音的库

二、使用pymysql提交内容到wordpress数据库

一般我们在使用wordpress时都是在后台上面写完然后点击发布,这个过程是这样子的:

浏览器=>form提交=>php=>数据库

而这里我们要跳过前面三个步骤,直接对接数据库:

命令行=>数据库

在通过查看wordpress数据库的wp_posts表的字段后,我写了一段sql语句,并预留了三个位置,为content,title,name,分别代表文章内容,标题,在url显示的名字。

sqlbase="INSERT INTO wp_posts(post_author,post_date,post_date_gmt,post_content,post_title,post_status,comment_status,ping_status,post_name,post_modified,post_modified_gmt,post_parent,menu_order,post_type) VALUE(1,now(),DATE_ADD(now(),INTERVAL '-8' HOUR),'%s','%s','publish','open','open','%s',now(),DATE_ADD(now(),INTERVAL '-8' HOUR),0,0,'post')"

我们要生成一段插入文章的sql语句时就可以这样写

sql=sqlbase % (content,title,name)

接下来要将sql语句提交到wordpress的数据库,这里就需要用到一个python的第三方库pymysql

import pymsql

sqlbase="INSERT INTO wp_posts(post_author,post_date,post_date_gmt,post_content,post_title,post_status,comment_status,ping_status,post_name,post_modified,post_modifi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值