![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
qq_41471281
这个作者很懒,什么都没留下…
展开
-
python爬虫 第1天 复杂的HTML解析 45页
1 urlopen 用来打开并读取一个从网络获取的远程对象。2 估计可能出现的错误• 网页在服务器上不存在(或者获取页面的时候出现错误) try: html = urlopen("http://www.pythonscraping.com/pages/page1.html") except HTTPError as e: print(e)原创 2018-02-02 16:54:13 · 254 阅读 · 0 评论 -
python爬虫第8天 图像识别与文字处理 避开采集陷阱
将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以 实现 OCR 的底层库并不多,目前很多库都是使用共同的几个底层 OCR 库,或者是在上面 进行定制OCR库概述:Pillow 和 Tesseract。每个库都可以从它们的网站上下载并安装(http://pillow.readthedocs.org/installation.html ...原创 2018-02-19 16:50:21 · 1315 阅读 · 0 评论 -
python爬虫第7天 穿越网页表单与登录窗口进行采集 采集JavaScript
Python Requests库1 单选按钮、复选框和其他输入2 提交文件和图像3 处理登录和cookie4 Requests 库的 session 函数会话(session)对象(调用 requests.Session() 获取)会持续跟踪会话信 息,像 cookie、header,甚至包括运行 HTTP 协议的信息,比如 HTTPAdapter(为 HTTP 和 HTTPS 的链接...原创 2018-02-18 18:17:25 · 925 阅读 · 0 评论 -
python爬虫 第6天 数据清洗 自然语言处理 128页
数据清洗编写代码清洗数据数据存储后再清洗strip() 方法用于移除字符串头尾指定的字符(默认为空格)。 string.punctuation 来获取 Python 所有的标点符自然语言处理马尔可夫模型广度优先搜索广度优先搜索算法的思路是优先搜寻直接连接到起始页的所有链接(而不是找到一个链接 就纵向深入搜索)。如果这些链接不包含目标页面(你想要找的词条),就对第二层的链 接——连接到起始页的页面的...原创 2018-02-18 12:27:43 · 1664 阅读 · 0 评论 -
python爬虫第5天 读取文档
本章重点介绍文档处理的相关内容,包括把文件下载到文件夹里,以及读取文档并提取数 据。我们还会介绍文档的不同编码类型,让程序可以读取非英文的 HTML 页面纯文本beautifulsoup()只对HTML文件有作用一个常见的误解是 UTF-8 把所有字符都存储成 8 位。其实“8 位”只是显示一个字符需要的最小位数,而不是最大位数读取CSV文件 对于在线的文件• 手动把 CSV 文件下载到本机,然后...原创 2018-02-14 11:32:11 · 307 阅读 · 0 评论 -
python爬虫 第4天 存储数据
媒体文件存储媒体文件有两种主要的方式:只获取文件 URL 链接,或者直接把源文件下载下来通过媒体文件所在的URL链接的优点• 爬虫运行得更快,耗费的流量更少,因为只要链接,不需要下载文件。 • 可以节省很多存储空间,因为只需要存储 URL 链接就可以。 • 存储 URL 的代码更容易写,也不需要实现文件下载代码。 • 不下载文件能够降低目标主机服务器的负载。缺点• 这些内嵌在你的网站或应用中的外站...原创 2018-02-10 14:45:17 · 155 阅读 · 0 评论 -
python爬虫 第3天 使用API
应用编程接口(Application Programming Interface,API)用http协议向API 发起请求,API 会用 XML (eXtensible Markup Language,可扩展标记语言)或 JSON(JavaScript Object Notation, JavaScript 对象表示)格式返回服务器响应的信息。尽管大多数 API 仍然在用 XML,但是 JSON ...原创 2018-02-10 10:52:21 · 1020 阅读 · 0 评论 -
python爬虫 第2天 开始采集
使用网络爬虫的 时候,你必须非常谨慎地考虑需要消耗多少网络流量,还要尽力思考能不能让采集目标的 服务器负载更低一些遍历单个域名采集整个网站何时有益处,何时有害处1 生成网站地图 2 收集数据 3 链接去重 python的递归的次数有限制收集整个网站的数据通过互联网采集...原创 2018-02-09 15:40:53 · 254 阅读 · 0 评论 -
python爬虫第9天 用爬虫测试网站 远程采集
网站的前端通常并没 有自动化测试,尽管前端才是整个项目中真正与用户零距离接触的唯一一个部分。想象有一个由测试驱动的网络开发项目。每天进行测试以保证网络接口的每个环节的功能 都是正常的。每当有新的特性加入网站,或者一个元素的位置改变时,就执行一组自动化 测试测试测试和单元测试虽然不同公司的单元测试定义和实践方法大相径庭,但是一个单元测试通常包含以下 特点。• 每个单元测试用于测试一个零件(compo...原创 2018-02-19 18:07:26 · 1432 阅读 · 0 评论