![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
wangpi_csdn16
这个作者很懒,什么都没留下…
展开
-
Python爬虫教程第3节-正则表达式
正则表达式(Regular Expression)对于正则表达式,我们要搞懂公式怎么写、写出来表示什么。即弄懂它怎么产生、又怎么去用。what:正则表达式是操作字符串的一种逻辑公式,是一种逻辑表达式,是对一类有规律字符串的抽象。where:正则表达式主要用于字符串匹配,即将与正则表达式特征一致的内容提取出来。why:正则表达式的功能用其它方法也能实现,但没有它简练、强大、高效。...原创 2018-07-10 00:00:34 · 174 阅读 · 0 评论 -
python爬虫教程第2节-信息提取
本节信息提取主要是介绍BeautifulSoup库主要回答三个问题BeautifulSoup库是干什么的、用于什么情况下、怎么用1.BeautifulSoup 库是用于信息解析、提取的,比如从上节我们可以提取一个网页的内容了,但如何获取我想要的内容呢,这就要靠BS库了。2.用于什么情况下:用在http页面内容下,即你已经有了一个http页面内容,已经通过requests库获取了页面...原创 2018-07-01 19:27:08 · 256 阅读 · 0 评论 -
python爬虫教程第1节-网页内容获取
概要:在以后每节的讲解中,我都会首先讲述4个问题,即what/why/when/how针对requests库what-这个库是什么:requests库是用于网页内容获取的一个工具,它的存在就是从网络中获取指定的网页内容why-为什么用这个库:其实除了requests库,还有urllib库也具备同样功能,且为python自带库,从目前来说,requests库更加简洁,高效,说白了在程...原创 2018-06-26 23:39:56 · 359 阅读 · 0 评论 -
Python爬虫教程-总纲
在学习爬虫前先明确lh 个问题,即what/why/when/how1.whta:即先明确什么是爬虫,爬虫是用自动获取网页中所需内容的一段代码或一个程序;比如百度或谷哥就是一个大的爬虫;2.why:为什么要用爬虫-用爬虫最主要的在于效率,如果用人工在浩翰的网络中获取想要的内容,是一件几乎不可能的事;所以要借助计算机程序的力量来完成3.when:什么时候用爬虫-可以说任何时候,只要你想从...原创 2018-06-24 17:54:14 · 477 阅读 · 0 评论 -
urllib学习之爬虫
1、urllib其实是一个包,包括了四个模块:urllib.request:用于打开和读取 URLurllib.parse:用于分解urlurllib.error:包括了ullib.request产生的异常urllib.robotparser:分解robots.txt文件 2、来说一下具体用法比如用于访问百度首先调用urllib包中request模块,然后用ur...原创 2018-03-14 22:01:32 · 436 阅读 · 0 评论