使用python写一个简单爬虫的思路

import requests
import re
from bs4 import BeautifulSoup     #从bs4这个库中导入BeautifulSoup
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

DOWNLOAD_URL = 'https://www.doutula.com/photo/list/'
html = requests.get(DOWNLOAD_URL, headers= headers)

bhtml = BeautifulSoup(html.content, "html.parser")      #使用BeautifulSoup解析这段代码
html=str(bhtml)
# print(html)
imgre = re.findall(r'//img.+?\.jpg',html)
print(imgre)

for i,pic_url in enumerate(imgre):
    pic_url = r'http:'+pic_url
    pic = requests.get(pic_url)
    string = str(i+1)+'.jpg'
    with open(string,'wb') as f:
        f.write(pic.content)
import pymysql

file_handle=open('1.txt',mode='r')
contents=file_handle.readlines()
# print(len(contents))   #列表的长度
# print(contents[0])   #说明默认是从0开始的



# 连接数据库
conn = pymysql.Connect(
    host='localhost',
    port=3306,
    user='root',
    passwd='root',
    db='python',
    charset='utf8'
)
string=""
pic_url=""
# 获取游标
cur = conn.cursor()
sql="insert into images values(%s,%s)"
for i in range(len(contents)):   #这里的i默认是从0开始的
    if((i+1)%2==0):
        string=contents[i]
        print(string)
    else:
        pic_url=contents[i]
        print(pic_url)
    if i%2==0:
        if i!=0:
            cur.execute(sql, (string, pic_url))

print("插入数据成功")

cur.close()
conn.commit()
conn.close()
print('sql执行成功')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值