静态页面的抓取（学习简单爬虫）

最新推荐文章于 2024-07-22 16:23:06 发布

ep_mashiro

最新推荐文章于 2024-07-22 16:23:06 发布

阅读量3.1k

点赞数 1

分类专栏： python 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tinkle181129/article/details/50404796

版权

博主在圣诞节期间学习了静态页面的简单爬虫，并通过实例爬取了芈月传的相关内容。在实践中遇到了编码问题导致的乱码，但最终解决了问题，将数据成功保存到output.txt文件。

摘要由CSDN通过智能技术生成

圣诞节快乐(づ￣ 3￣)づ～～～

在这个半放假的日子里，人也变得慵懒起来，在MOOC下学习了静态页面的简单爬虫（传送门：http://www.imooc.com/learn/563），干货满满啊～～

所以爬了一个芈月传么么哒～～～

# coding=utf-8
import urllib2
class UrlManager(object):

    def __init__(self):
        self.new_urls=set()
        self.old_urls=set()

    def add_new_url(self,url):
        if url is None:
            return 
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    def add_new_urls(self,urls):
        if urls is None or len(urls)==0:
            return 
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        return len(self.new_urls)!=

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ep_mashiro CSDN认证博客专家 CSDN认证企业博客

码龄9年

196: 原创

6万+: 周排名

44万+: 总排名

20万+: 访问

: 等级

3681: 积分

130: 粉丝

98: 获赞

43: 评论

240: 收藏

私信

关注

热门文章

分类专栏

Leetcode-Solution 16篇
python 152篇
leetcode 136篇
html 2篇
统计学习方法 24篇
latex 1篇
一锅乱炖 5篇
推荐系统 13篇
mysql 4篇
机器学习 21篇
Array 24篇
Heap 1篇
DC 3篇
TwoPoints 5篇
Math 4篇
Bit 2篇
HashTable 3篇
BinarySear 7篇
Greedy 1篇
DP 3篇
Backtrack 1篇
Design 1篇
面试 33篇
机试 19篇
集成学习 1篇
计算广告 3篇
DFS 1篇
String 1篇
tensorflow 1篇

最新评论

latex 自定义bst文件
mklianhnu: 您好，请问您的问题解决了吗？我也处理不了
coursera公开课——recommender system作业（第二周）
yypSandra: 请问可以共享一下下载的数据集吗，我下载不下来了，谢谢啦
latex 自定义bst文件
qq_40741498: 博主，请问怎么将Fig. 1:改成Fig. 1.呢？这个冒号怎么变成点，我尝试好久了
latex 自定义bst文件
qq_42102915: 您好，我生成.dbj格式后也不知道如何生成.bst文件，请问您已经解决这个问题了吗？我使用的是texstudio，不知道文章中第四条提到的dos窗口是哪个，也不知道如何用tex命令编译.dbj文件。
latex 自定义bst文件
xml98: 您好，我用这个方法得到了.dbj文件，但是无论如何就是弄不出来.bst文件。您遇到过这种情况吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。