数据的爬取

#coding utf-8
#mojun

import re
import requests
url='https://maoyan.com/board'

prox_list={
    'http':'http://171.38.37.239:8123',
    'https':'https://221.224.136.211:35101',
}
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
response = requests.request("get",url,proxies=prox_list,headers=headers)
# response=requests.get(url)
#试下get方法行不行
# print(response.text)

base_list=re.compile(r'<dd>([\w\W]*?)</dd>')
all=base_list.findall(response.text)
# print(len(all))
for dd in all:
    ##电影名称
    movie_title=re.compile(r'<a.*?>(.*?)</a>')
    title=movie_title.findall(dd)
    print(title[0].strip())
    ##电影主演
    movie_start=re.compile(r'<p class="star">([\w\W]*?)</p>')
    start=movie_start.findall(dd)
    print(start[0].strip())

    ##电影上演时间
    movie_time = re.compile(r'<p class="releasetime">([\w\W]*?)</p>')
    time = movie_time.findall(dd)
    print(time[0].strip())

    ##电影排名
    movie_mingci = re.compile(r'<i class="board-index board-index-\d+">([\w\W]*?)</i>')
    mingci = movie_mingci.findall(dd)
    print(mingci[0].strip())

    ##电影评分
    movie_integer = re.compile(r'<i class="integer">([\w\W]*?)</i>')
    a = movie_integer.findall(dd)
    movie_fraction = re.compile(r'<i class="fraction">([\w\W]*?)</i>')
    b = movie_fraction.findall(dd)
    c=a[0].strip()+b[0].strip()
    print(c)

    ##电影缩略图
    movie_tu = re.compile(r'<img data-src="(.*?)"')
    tu = movie_tu.findall(dd)
    print(tu[0].strip())

    
    


#tu[0].strip() 这里的如何有空的酒不行了,最好做个判断!




















 

 

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值