python爬虫两个简单入门实例

最新推荐文章于 2024-06-24 14:19:29 发布

置顶

muwenbo666

最新推荐文章于 2024-06-24 14:19:29 发布

阅读量596

点赞数 1

分类专栏： python 文章标签： python 数据分析

本文链接：https://blog.csdn.net/muwenbofx/article/details/108360081

版权

这篇博客介绍了Python爬虫的初步应用，包括建表和两个实例代码。实例一和实例二展示了如何抓取并存储数据，适用于初学者了解爬虫基本操作。

摘要由CSDN通过智能技术生成

python爬虫简单入门实例

一、建表
二、实例代码
- 实例一
- 实例二
总结

提示：安装python3环境和需要导入的库。以下是本篇文章正文内容，下面案例可供参考

一、建表

CREATE TABLE article (
id int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT ‘id’,
artname varchar(50) NOT NULL,
href text NOT NULL COMMENT ‘链接’,
content text NOT NULL COMMENT ‘详情’,
img text NOT NULL COMMENT ‘图片’,
PRIMARY KEY (id)
) ENGINE=InnoDB AUTO_INCREMENT=624 DEFAULT CHARSET=utf8mb4;

二、实例代码

实例一

代码如下（示例）：

import requests
from bs4 import BeautifulSoup   # Beautiful Soup 最主要的功能是从网页抓取数据
import datetime
import pymysql
import time  # 这个模块提供各种与时间相关的函数

# 连接数据库
connect = pymysql.connect(
    host='localhost',
    port=3306,
    user='root',
    passwd='jmroot',
    db='python',
    charset='utf8'
)


def get_one_page():
    headers = {
      # User-Agent头域的内容包含发出请求的用户信息
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
    }
    # 开始时间
    start_time = datetime.datetime.now()
    url = 'http://www.mama.cn/z/t1183/'
    # 图片保存路径 没有自己手动创建
    root = "E://reptile//images//"

    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")   # 创建BeautifulSoup Python标准库 对象
    div = soup.find(class_='list-left')   # find_all() 方法的返回结果是值包含一个元素的列表,而 find() 方法直接返回结果。   返回分类
    lists = div.find_all('li')   # 搜索标题列表
    for list in lists:    # 遍历标题列表
        title = list.find('a').string    # 标题名称
        href = list.find('a')

最低0.47元/天解锁文章

muwenbo666

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫两个简单入门实例

python爬虫简单入门实例一、建表二、实例代码总结提示：安装python3环境和需要导入的库。以下是本篇文章正文内容，下面案例可供参考一、建表CREATE TABLE article (id int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT ‘id’,artname varchar(50) NOT NULL,href text NOT NULL COMMENT ‘链接’,content text NOT NULL COMMENT ‘详情’,
复制链接

扫一扫

专栏目录