zield-CSDN博客

原创 Python网络爬虫与信息提取（七）re库的基本方法

re库是Python自带的库，re库采用raw string(原生字符串)类型表示正则表达式，输入时需表示为r'text',若不添加开头的raw_input标识符，则需要对文本中的"\"进行转义，这会徒增很多不必要的麻烦，所以使用正则表达式时尽量用原生字符串类型来表示。 re库含有许多功能函数，在此先介绍其中最常用的六个，其他的函数在今后的实际问题中再具体解析。函数说明re.search()...

2018-05-07 19:51:08 1808 1

原创 Python网络爬虫与信息提取（六）正则表达式的概念及语法

前言在bs4的查找方法中必须将想查找的对象的正确名称做为参数输入，但很多情况下我们并不知道我们要查找的对象的全部名称，例如我们想将名称中含"a"的对象全部找出，这种时候就需要用正则表达式来表示对象名称。正文正则表达式是为了简洁明了地表示出任意组合与数量的字符而诞生的，其常用的基本语法如下：操作符说明实例. 表示任何单个字符 [ ] 字符集，对单个字符给出取值范围[abc]表示a, b, c...

2018-05-07 18:43:34 479

原创 Python网络爬虫与信息提取（五）信息标记与信息提取的一般方法

目前国际公认的信息标记种类共有如下三种：名称方式实例XML(eXtensible Markup Language)基于HTML的用有名称与属性的标签进行标记的方式<name>...</name> <name /> JSON(JavaScript Object Notation)可直接作为JS程序的一部分的用有...

2018-05-01 16:14:16 1466

原创 Python网络爬虫与信息提取（四）bs4的内容遍历方法及注意事项

HTML文本是一种树形结构，所以bs4的内容遍历方法也是基于树形结构的，它共有下行遍历、上行遍历和平行遍历这三种遍历方法。标签树的下行遍历属性说明.contents子节点的列表，将<tag>所有子节点存入列表.children子节点的迭代类型，与.contents类似，用于循环遍历子节点.descendants子孙节点的迭代类型，包含所有子孙节点，用于循环遍历我们仍以上一节中的...

2018-04-30 17:08:39 4588

原创 Python网络爬虫与信息提取（三）bs4入门

Python的requests库可以帮助我们获取到大量的信息，而如果想对这些信息进行提取与分析，则经常使用beautifulsoup这个用来解析HTML和XML格式的功能库。 beautifulsoup库的安装和requests的流方法一样，可直接在cmd中输入pip install beautifulsoup4来安装，安装完成后可直接在IDLE中输入import bs4来验证是否安装成功。...

2018-04-30 16:20:13 601

原创使用网络爬虫需要知道的准则——robots协议

前言因为网络爬虫可从服务器爬取各种内容，所以可能存在涉及个人隐私或商业机密的内容，给使用者和服务器管理者带来不必要的困扰与纠纷，所以需要robots协议来对其进行规范。正文有些企业的服务器设置有对特定爬虫的拦截功能，但并不是所有企业均有能力设置和管理对爬虫进行拦截的功能，所以robots协议便诞生了。此协议告知了爬虫爬取该网站时应遵循的准则，并详细说明了何种爬虫禁止爬取何种网页。我...

2018-04-22 13:09:11 4601

原创 Python网络爬虫与信息提取（二）**kwargs参数详解

前言上一节中我们借requests库中的get方法简单学习了requests库的使用方法，并提及了get方法的参数中含有**kwargs这十三个可选参数，这一节中我们将深入探讨这十三个参数的含义和用法。正文我们知道requests方法是requests库所有方法的基础，所以**kwargs这十三个参数也不是get方法独有的，而是适用于requests方法及其延伸出的六种方法。 **...

2018-04-22 12:52:00 4474

原创 Python网络爬虫与信息提取（一）requests库的安装与基本方法之get()方法

前言最近正在学习Python网络爬虫的相关知识，所以想边学边与大家分享，鉴于本人Python水平有限，此前除了用pygame按照教程做过一些游戏之外对Python并无太深的理解，所以此文章的主要目的在于抛砖引玉，若文章中有什么错误与瑕疵，望大家可以指出，使我们共同进步。正文目前Python爬虫领域最流行的库是requests库，关于该库的更多信息可以在官方网站http://www.py...

2018-04-19 09:41:55 785

Abgler的博客