电影url 批两下载的思路和代码

import requests,re
from zhouliu.class_tt import class_tt

实例化一个添加数据到数据库的类

dytt_mysql=class_tt()
m=0
for i in range(1,5):
url=’http://www.dytt8.net/html/gndy/china/list_4_%d.html‘% i
print(url,’==’*50)
# url=’http://www.37cs.com/html/click/8040_2134.html

headers={
    'User-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
response=requests.get(url,headers)
partten='<a href="(.*)" class="ulink">'
# with open('dytt.html','wb') as ff:
#     ff.write(response.content)
html_text=response.text
res_url=re.findall(partten,html_text)
# print(len(res_url))

for res_all_url in res_url:
    res_one_url='http://www.dytt8.net/'+res_all_url

    sql='insert into dytt values(null,{})'.format(repr(res_one_url))
    dytt_mysql.add_pymysql(sql)
    # print(res_one_url)

电影天堂的爬取思路

《1》首先根据在浏览器中输入域名找到url 和下载网址

《2》获取url 并发现并不完整且页码毫无规律可言

《3》把url 的前半段改为http://www.dytt8.net 发现页码有规律了

《4》顺利爬取网站所有的url

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值