![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习笔记
文章平均质量分 70
摇滚牛奶
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习1--糗事百科
学习CQC同学的代码 以下是一些学习经验# -*- coding:utf-8 -*-import urllibimport urllib2import repage = 1url = 'http://www.qiushibaike.com/hot/page/' + str(page) #百科网址user_agent = 'Mozilla/4.0 (原创 2016-12-13 22:01:01 · 334 阅读 · 0 评论 -
Python爬虫学习2--百度贴吧
CQC同学的源代码 这次代码的关键是: 1. 大量的替换正文中的特殊字符 2.设置url,达成只看楼主的目标 3.保存内容入txt下面是可用的代码# -*- coding: cp936 -*-__author__ = 'ETC'# -*- coding:utf-8 -*-import urllibimport urllib2import reimport codecs#处理页面原创 2016-12-13 22:14:56 · 217 阅读 · 0 评论 -
《用python写网络爬虫》笔记1
1.为了下载更加可 靠 , 我们需要 控 制用户代理的设定。 下 面的代码对download 函数 进行了修改, 设定了一个 默认的用户代理 “ wsw p ” ( 即 WebScraping with Python 的首字母缩写 )。 2.为了解析网站 地图 , 我们将会使用一个简单的正则表达式 , 从 < loc > 标签中提 取 出URL。 3.链接爬虫将使用正则表达原创 2017-02-22 10:01:18 · 378 阅读 · 0 评论 -
《用python写网络爬虫》笔记2
1.Beautiful Soup能够正确解析缺失的引号并闭合标签,此外还添加 了 <html>和 <body>标签使其成为完整的HTML 文档Soup = BeautifulSoup(html)tr = soup.find(attrs={‘id’:‘place area row’})#形式选择和attrs的参数匹配的标签td=tr.find_all(attrs={…})#进一步选择匹配的标签原创 2017-02-22 10:17:57 · 442 阅读 · 0 评论 -
《用python写网络爬虫》笔记3
1.下载缓存 本章提出了对已爬取网页进行缓存的方案,可以让每个网页只下载一次来提高效率。2.缓存支持 先搜索是否存有缓存,若没有,再执行下载,并保存下载到cache3.解析Python中的_getitem_专有方法 为了使类中的字典数据支持cache[key]=result形式4.合法文件名 为了保证在不同文件系统中 , 我们的文件路径都是安全的 , 就需要限制其文件名。 只能包含数字、字原创 2017-02-23 14:08:58 · 377 阅读 · 0 评论