爬取信息到数据库入门操作

#爬取维基百科

#
引入开发包
fromurllib.requestimport urlopen
from bs4 import BeautifulSoup
import re

import pymysql.cursors

#请求URL并使用UTF-8编码
resp = urlopen("https://en.wikipedia.org/wiki/Wikipedia").read().decode("utf-8")

#指定一个解析器
soup = BeautifulSoup(resp,"html.parser")
for ListUrl in soup.findAll("a",href = re.compile(r"^/wiki/")):
    if not re.search("\.(jpg|JPG)$",ListUrl["href"]):#如果不是已jpg或者JPG结尾的才输出
       
print(ListUrl.string,"<-------->","https://en.wikipedia.org"+ListUrl["href"])

        #获取数据库链接
       
connection =pymysql.connect(host = 'localhost',
                             user = 'root',
                             password = '19961016',
                             db = "wikiurl",
                             charset = "utf8mb4"
                           
)


        try:
            #获取会话指针
           
with connection.cursor() as cursor:
                #创建sql语句
               
sql = "insert into`urls`(`urlname`,`urlhref`)values(%s,%s)"
               
#执行sql语句
               
cursor.execute(sql,(ListUrl.get_text(),"https://en.wikipedia.org"+ListUrl["href"]))
                #提交
               
connection.commit()
        finally:
            connection.close()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值