提示:安装python3环境和需要导入的库。以下是本篇文章正文内容,下面案例可供参考
一、建表
CREATE TABLE article
(
id
int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT ‘id’,
artname
varchar(50) NOT NULL,
href
text NOT NULL COMMENT ‘链接’,
content
text NOT NULL COMMENT ‘详情’,
img
text NOT NULL COMMENT ‘图片’,
PRIMARY KEY (id
)
) ENGINE=InnoDB AUTO_INCREMENT=624 DEFAULT CHARSET=utf8mb4;
二、实例代码
实例一
代码如下(示例):
import requests
from bs4 import BeautifulSoup # Beautiful Soup 最主要的功能是从网页抓取数据
import datetime
import pymysql
import time # 这个模块提供各种与时间相关的函数
# 连接数据库
connect = pymysql.connect(
host='localhost',
port=3306,
user='root',
passwd='jmroot',
db='python',
charset='utf8'
)
def get_one_page():
headers = {
# User-Agent头域的内容包含发出请求的用户信息
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
}
# 开始时间
start_time = datetime.datetime.now()
url = 'http://www.mama.cn/z/t1183/'
# 图片保存路径 没有自己手动创建
root = "E://reptile//images//"
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser") # 创建BeautifulSoup Python标准库 对象
div = soup.find(class_='list-left') # find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果。 返回分类
lists = div.find_all('li') # 搜索标题列表
for list in lists: # 遍历标题列表
title = list.find('a').string # 标题名称
href = list.find('a')