关闭

python_女友排行榜

标签: python遍历排行榜
620人阅读 评论(0) 收藏 举报
分类:

这次的目标是点击打开链接

环境:Ubuntu16.10   python3.5+

这个网站的HTML编写 简单

但是有些地方感觉不对,那就是他网页有900+图,实际只显示488张,搞得我很无语,,,,,后来通过限制遍历的数量来控制



虽然说HTML写的简单,但是,,,,通过whois 查到的这个网站作者的信息却又是少之又少,,,,,,

关键是,他的服务器弄得真的是牛,,,,

一个礼拜前是直接封ip,后来来了学校,一开始摸索的时候,又有手动进入网站的防止爬虫,

后来终于可以大概的试一试的时候,有时候有会没有响应给我,,,

所以,我有学习了 import time 

用来欺骗服务器,我也是醉了,,,

后来发现有好多张,他的图片就是不对的,,然后就加入了判断+记录错误信息

哎,,,,,,,,,,,,,,,,,

# -*- coding: utf -*-
# http://www.nh87.cn/find.html
import requests
import time
from bs4 import BeautifulSoup

url='http://www.nh87.cn/find.html'
headers = {'User-Agent':  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'}
response=requests.get(url,headers=headers)
print(response.encoding)
print (response.status_code, response.reason)
response.encoding='utf-8'
# 前期
soup=BeautifulSoup(response.text,'html.parser')
ig=soup.select('img') 
# print(ig[0]['data-original'],ig[0]['alt'])
list_p=[]
list_name=[]
list_lose=[]

# 建立列表 
num=1
for i in ig[:488]:
    list_p.append(i['data-original'])
    list_name.append('Top.%d'%num+i['alt'])
    num+=1
print('>>>>the list is ok')
#下载
n=0
for s in list_p:
    if n%40==0:
        print('阶段一休息:')
        time.sleep(5)  
      
    headers = {'User-Agent':  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.93 Safari/537.36'}
    response = requests.get(s, headers=headers, stream=True)
    if s=='http://www.nh87.cn':
        list_lose.append(list_name[n]+str(response.status_code))
        n+=1
        continue
    if response.status_code==200:  
        from contextlib import closing
        with closing(requests.get(s, headers=headers, stream=True)) as response:
            with open(r'/home/sun/Pictures/ny/170103/%s'%list_name[n], 'wb') as fd:
                for chunk in response.iter_content(128):
                    fd.write(chunk)
        print(list_name[n],'is ok')
    else:
        list_lose.append(list_name[n]+response.status_code)
    n+=1
print('>>>ok')
if len(list_lose)>0:
    print(list_lose)


1
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

[UnityUI]使用UGUI制作排行榜

本人使用的unity版本是4.6.3 1.首先,制作我们想要显示的内容。这里有一个小技巧,那就是为Panel添加Vertical Layout Group组件,再把一个个Item拖到Pane...
  • lyh916
  • lyh916
  • 2015-03-24 19:26
  • 4633

HTML练习--制作畅销书排行页面

无标题文档 .a { width:300px; background-color: #3C3; background-repeat: no-repeat; background-positi...
  • gengzhi1293443962
  • gengzhi1293443962
  • 2016-10-16 16:03
  • 1637

unity5.0.1:利用PlayerPrefs排行榜制作

看到网上制作排行榜的教程一大堆,看了一天,头越来越大,直到后来发现PlayerPrefs,这个是unity自带的,可以将游戏数据永久保存在本地,用来制作排行榜是再好不过的了!! 我们在一个场...
  • u013129771
  • u013129771
  • 2015-10-28 18:02
  • 1331

2017年11月编程语言排行榜:Java持续下滑仍稳居第1,Python逆袭C#上升到第4

程序猿(微信号:imkuqin) 猿妹 编译 TIOBE编程语言社区发布了 2017 年 11 月排行榜,Java、C、C ++ 三门编程语言依然占据前三。本月前 5 排名中,最值得注意...
  • UzV80PX5V412NE
  • UzV80PX5V412NE
  • 2017-11-14 00:00
  • 629

利用 Python 爬取豆瓣电影排行榜 Top250 的数据

平时利用在地铁公交的时间简单学习了解了 Python,学习参考的是廖雪峰的Python教程 ,但是要想学好,还是要上手练习才会有好的效果,于是周末就利用 Python 写了一个简单的爬虫,来获取豆瓣电...
  • linshijun33
  • linshijun33
  • 2016-11-25 23:52
  • 411

Python crawler 豆瓣电影排行榜评分

Python crawler 豆瓣电影排行榜评分
  • YangHeng816
  • YangHeng816
  • 2016-10-07 16:29
  • 387

2011年编程语言排行榜:Python成为2010年度语言

Source : TIOBE Programming Community Index for January 2011 2011年1月TIOBE编程语言排行榜近日出炉,Python赢得2010年度语言...
  • sunboy_2050
  • sunboy_2050
  • 2011-01-11 12:52
  • 3835

编程语言1月排行榜:C是年度语言,Python增长量第二

关注「实验楼」,每天分享一个项目教程   TIOBE 最近公布了 2018 年 1 月编程语言指数排行榜,排名前三的还是 Java、C、C++, Python 和 C# 排第四和第五。编程语言届的老前...
  • MOY37RQW1JarN33BgZk
  • MOY37RQW1JarN33BgZk
  • 5天前 00:00
  • 2383

【内有福利】TIOBE编程语言排行榜,Python遥遥领先

在这个快节奏的时代,要想走在潮流前端,你需要用最有效的方式,最有效率的工具,学习最有用的知识。而如今人工智能和数据分析爆发,python就是一颗冉冉升起的新星,因为简单易用和广阔的可能性,不仅长期稳居...
  • zV3e189oS5c0tSknrBCL
  • zV3e189oS5c0tSknrBCL
  • 2017-12-04 00:00
  • 27

TIOBE编程语言排行榜,Python遥遥领先

在这个快节奏的时代,要想走在潮流前端,你需要用最有效的方式,最有效率的工具,学习最有用的知识。而如今人工智能和数据分析爆发,python就是一颗冉冉升起的新星,因为简单易用和广阔的可能性,不仅长期稳居...
  • FnqTyr45
  • FnqTyr45
  • 2017-12-05 00:00
  • 153
    个人资料
    • 访问:16449次
    • 积分:393
    • 等级:
    • 排名:千里之外
    • 原创:19篇
    • 转载:12篇
    • 译文:1篇
    • 评论:0条
    文章分类