python爬虫_wangpi_csdn16的博客-CSDN博客

python爬虫

关注

关注数：文章数：5 文章阅读量：1702 文章收藏量：2

作者: wangpi_csdn16

这个作者很懒，什么都没留下…

展开

Python爬虫教程第3节-正则表达式

正则表达式（Regular Expression)对于正则表达式，我们要搞懂公式怎么写、写出来表示什么。即弄懂它怎么产生、又怎么去用。what:正则表达式是操作字符串的一种逻辑公式，是一种逻辑表达式，是对一类有规律字符串的抽象。where:正则表达式主要用于字符串匹配，即将与正则表达式特征一致的内容提取出来。why:正则表达式的功能用其它方法也能实现，但没有它简练、强大、高效。...

原创 2018-07-10 00:00:34 · 174 阅读 · 0 评论
python爬虫教程第2节-信息提取

本节信息提取主要是介绍BeautifulSoup库主要回答三个问题BeautifulSoup库是干什么的、用于什么情况下、怎么用1.BeautifulSoup 库是用于信息解析、提取的，比如从上节我们可以提取一个网页的内容了，但如何获取我想要的内容呢，这就要靠BS库了。2.用于什么情况下：用在http页面内容下，即你已经有了一个http页面内容，已经通过requests库获取了页面...

原创 2018-07-01 19:27:08 · 256 阅读 · 0 评论
python爬虫教程第1节-网页内容获取

概要：在以后每节的讲解中，我都会首先讲述4个问题，即what/why/when/how针对requests库what-这个库是什么：requests库是用于网页内容获取的一个工具，它的存在就是从网络中获取指定的网页内容why-为什么用这个库：其实除了requests库，还有urllib库也具备同样功能，且为python自带库，从目前来说，requests库更加简洁，高效，说白了在程...

原创 2018-06-26 23:39:56 · 359 阅读 · 0 评论
Python爬虫教程-总纲

在学习爬虫前先明确lh 个问题，即what/why/when/how1.whta:即先明确什么是爬虫，爬虫是用自动获取网页中所需内容的一段代码或一个程序；比如百度或谷哥就是一个大的爬虫；2.why：为什么要用爬虫-用爬虫最主要的在于效率，如果用人工在浩翰的网络中获取想要的内容，是一件几乎不可能的事；所以要借助计算机程序的力量来完成3.when：什么时候用爬虫-可以说任何时候，只要你想从...

原创 2018-06-24 17:54:14 · 477 阅读 · 0 评论
urllib学习之爬虫

1、urllib其实是一个包，包括了四个模块：urllib.request:用于打开和读取 URLurllib.parse：用于分解urlurllib.error：包括了ullib.request产生的异常urllib.robotparser：分解robots.txt文件 2、来说一下具体用法比如用于访问百度首先调用urllib包中request模块，然后用ur...

原创 2018-03-14 22:01:32 · 436 阅读 · 0 评论

python爬虫

作者: wangpi_csdn16

Python爬虫教程第3节-正则表达式

python爬虫教程第2节-信息提取

python爬虫教程第1节-网页内容获取

Python爬虫教程-总纲

urllib学习之爬虫