平时比较喜欢看电影,每次去资源站搜索感觉很不方便,闲来无事就写了个小虫把电影站点给爬了。。废话不多说,看源码。
避免广告,资源站地址隐藏。
第一步,抓取所有电影链接,保存到表movieall中
from html.parser import HTMLParser
import urllib.request
import sys
import sqlite3
import time
import re
types = [['Dongzuodianying',99],['Kehuandianying',32],['Kongbudianying',84],['Xijudianying',121],['Aiqingdianying',54],['Juqingdianying',275],['Zhanzhengdianying',14]];
baseurl= "https://www.*****.com/"
def write_to_db(name,mtype,url,img):
conn = sqlite3.connect("D:\\movie\\movie.db")
sql = '''insert into movieall(name,type,url,imgurl) values(:ssname,:sstype,:ssurl,:ssimg)'''
conn.cursor().execute(sql,{'ssname':name, 'sstype':mtype, 'ssurl':url,'ssimg':img})
conn.commit()
conn.cursor().close()
c