爬虫实战3：爬取豆瓣妹子图片

最新推荐文章于 2021-05-31 19:21:27 发布

shifanfashi

最新推荐文章于 2021-05-31 19:21:27 发布

阅读量926

点赞数

分类专栏：爬虫实战爬虫实战文章标签：爬虫实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shifanfashi/article/details/89952123

版权

爬虫实战同时被 2 个专栏收录

30 篇文章 8 订阅

订阅专栏

29 篇文章 6 订阅

订阅专栏

import urllib.request
import bs4
import urllib.error

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"}


def get_html(url):
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request)
    html = response.read().decode("utf-8")
    return html


j = 0


def html_parse(html):
    global j
    soup = bs4.BeautifulSoup(html, "lxml")
    pic_lists = soup.find('ul', attrs={"class": "thumbnails"})
    pic_list = pic_lists.find_all('li')

    for pics in pic_list:
        pic_url = pics.find('img')['src']
        urllib.request.urlretrieve(pic_url, "D:\工作\python\网络爬虫开发实战\images\%s.jpg" % j)
        j += 1


def main():
    i = 1
    while i < 4:
        url = "https://www.dbmeinv.com/?pager_offset=" + str(i)
        html = get_html(url)
        html_parse(html)
        i += 1


if __name__ == "__main__":
    main()

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫实战3：爬取豆瓣妹子图片

import urllib.requestimport bs4import urllib.errorheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"}def ge...
复制链接

扫一扫

专栏目录

shifanfashi CSDN认证博客专家 CSDN认证企业博客

码龄5年

79: 原创

5万+: 周排名

192万+: 总排名

20万+: 访问

: 等级

2429: 积分

82: 粉丝

53: 获赞

18: 评论

304: 收藏

私信

关注

热门文章

分类专栏

数据分析 25篇
python 5篇
爬虫实战 29篇
LeetCode 9篇
python练习 27篇
LeetCode 10篇
爬虫实战 30篇
库的用法 5篇
error
HTML 4篇

最新评论

爬虫实战：9，爬取1688商家联系方式
慕容棠飞: 自己也是一知半解然后发个文章获取流量吧
爬虫实战9：爬取1688网站商家信息
mayingrui333: 想要，联系我
爬虫实战：9，爬取1688商家联系方式
普通网友: 大佬，求学习-共赢543063192@qq.com
利用python进行数据分析(第二版)_第三章
黑化兔: 但是这个代码会一直报错：'list' object has no attribute 'strip' [code=python] states = [' Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda','south carolina##', 'West virginia?'] def remove_punctuation(value): return re.sub('[!#?]', '', value) clean_ops = [str.strip, remove_punctuation, str.title] def clean_strings(strings, ops): result = [] for value in strings: for function in ops: value = function(value) result.append(value) return result clean_strings(states, clean_ops) [/code]
爬虫实战：9，爬取1688商家联系方式
Sunday_199: 爬联系方式不是需要登录账户吗，如何模拟登录呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。