python爬虫两个简单入门实例

这篇博客介绍了Python爬虫的初步应用,包括建表和两个实例代码。实例一和实例二展示了如何抓取并存储数据,适用于初学者了解爬虫基本操作。
摘要由CSDN通过智能技术生成

python爬虫简单入门实例


提示:安装python3环境和需要导入的库。以下是本篇文章正文内容,下面案例可供参考

一、建表

CREATE TABLE article (
id int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT ‘id’,
artname varchar(50) NOT NULL,
href text NOT NULL COMMENT ‘链接’,
content text NOT NULL COMMENT ‘详情’,
img text NOT NULL COMMENT ‘图片’,
PRIMARY KEY (id)
) ENGINE=InnoDB AUTO_INCREMENT=624 DEFAULT CHARSET=utf8mb4;

二、实例代码

实例一

代码如下(示例):

import requests
from bs4 import BeautifulSoup   # Beautiful Soup 最主要的功能是从网页抓取数据
import datetime
import pymysql
import time  # 这个模块提供各种与时间相关的函数

# 连接数据库
connect = pymysql.connect(
    host='localhost',
    port=3306,
    user='root',
    passwd='jmroot',
    db='python',
    charset='utf8'
)


def get_one_page():
    headers = {
      # User-Agent头域的内容包含发出请求的用户信息
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
    }
    # 开始时间
    start_time = datetime.datetime.now()
    url = 'http://www.mama.cn/z/t1183/'
    # 图片保存路径 没有自己手动创建
    root = "E://reptile//images//"

    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")   # 创建BeautifulSoup Python标准库 对象
    div = soup.find(class_='list-left')   # find_all() 方法的返回结果是值包含一个元素的列表,find() 方法直接返回结果。   返回分类
    lists = div.find_all('li')   # 搜索标题列表
    for list in lists:    # 遍历标题列表
        title = list.find('a').string    # 标题名称
        href = list.find('a')
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值