我的简单网络爬虫

最新推荐文章于 2021-11-16 22:11:05 发布

茶亦爽

最新推荐文章于 2021-11-16 22:11:05 发布

阅读量2.3k

点赞数

分类专栏：我和Python有个约会文章标签： python 网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lijing198997/article/details/38418731

版权

我和Python有个约会专栏收录该内容

8 篇文章 0 订阅

订阅专栏

断断续续地学习了一段时间的Python，把我的网络爬虫程序写在下面，供自己查阅复习吧！

# -*- coding: cp936 -*-
import urllib
page = 1
head = 'http://blog.sina.com.cn/s/articlelist_1191258123_0_'
end = '.html'
i = 0
while page <= 7:
    url = head + str(page) + end
    print url   
    con0 = urllib.urlopen(url).read()
    con = con0
    while con.find(r'<a title=') != -1:
        a0 = con.find(r'<a title=')
        if con.find(r'href=',a0) != -1:
            a1 = con.find(r'href=',a0)
            if con.find(r'html">',a1) != -1:
                b1 = con.find(r'html">',a1)
                url1 = con[a1+6 : b1+4] 
                i = i + 1
                print i ,':', url1
                content = urllib.urlopen(url1).read()
                if url1.find('blog_') != -1:
                    c1 = url1.find('blog_')
                    open(url1[c1 :],'w').write(content)
                con = con[b1+4:] 
    page = page + 1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
我的简单网络爬虫

断断续续地学习了一段时间的Python，把我的网络爬虫程序写在下面，供自己查阅复习吧！ # -*- coding: cp936 -*-import urllibpage = 1head = 'http://blog.sina.com.cn/s/articlelist_1191258123_0_'end = '.html'i = 0while page <= 7: url
复制链接

扫一扫

专栏目录

茶亦爽 CSDN认证博客专家 CSDN认证企业博客

码龄15年

38: 原创

23万+: 周排名

49万+: 总排名

69万+: 访问

: 等级

4245: 积分

116: 粉丝

160: 获赞

103: 评论

420: 收藏

私信

关注

热门文章

分类专栏

web 5篇
软件 16篇
PHP 1篇
工作 4篇
嵌入式 17篇
认识 3篇
路由器 2篇
ZigBee 1篇
服务器 2篇
STM32F4 5篇
我和Python有个约会 8篇
虚拟机 1篇
电路 3篇
蓝牙 1篇
Yocto 2篇
stm32 4篇
HAL 2篇
电脑知识 2篇
树莓派 2篇

最新评论

lwip1.4.0 http server实现及POST 实现
寥落星辰smz: good 正常运行ing
STM32 HAL库 error: #20: identifier "HAL_StatusTypeDef" is undefined问题
cccgccg: 解决啦：CubeMX生成的代码添加新功能时，需要在stm32f1xx_hal_conf.h文件中撤掉对应注释（位置大概在三十多到七十多行）。
STM32 HAL库 error: #20: identifier "HAL_StatusTypeDef" is undefined问题
cccgccg: 我的问题应该和你是一样的，我可以顺着头文件找到具体的声明，但就是报错说未定义。。。
STM32 HAL库 error: #20: identifier "HAL_StatusTypeDef" is undefined问题
wwjxwsjy: 狠狠地赞了
STM32 HAL库 error: #20: identifier "HAL_StatusTypeDef" is undefined问题
等и一会そ儿: 编译文件是按照你引用顺序来的，放在后面可能前面的文件有用到后来编译的内容，而后面的还没有编译，所以编译不通过

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。