![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
William_Tao(攻城狮)
学无止境,学有所成,学有所获,不断努力
展开
-
python爬虫之Selenium库(九)
Selenium概念声明浏览器对象from selenium import webdriverbrowser=webdriver.Chrome()//主要使用这个browser=webdriver.Firefox()browser=webdriver.Edge()browser=webdriver.PhantomJS()browser=webdriver.Safari()访问页...原创 2020-02-11 21:41:23 · 296 阅读 · 0 评论 -
爬虫之PyQuery库的使用(八)
PyQuery 概念初始化:字符串初始化html='''<div> <ul> <li class="item-0">frist item</li> <li class="item-1"><a href="link2.html">second item</a>...原创 2020-02-09 22:38:49 · 242 阅读 · 0 评论 -
python爬虫之正则表达式爬取猫眼前100的电影(七)
import jsonimport requestsfrom requests.exceptions import RequestExceptionimport reimport timedef get_one_page(url): try: headers = { 'User-Agent': 'Mozilla/5.0 (Macinto...原创 2020-02-08 20:39:28 · 561 阅读 · 0 评论 -
python爬虫(六)BeautifulSoup库
概念安装:安装: 命令行输入pip install beautifulsoup4BeautifulSoup支持的解析器基本用法from bs4 import BeautifulSouphtml='''<html><head><title>The Dormousae's story</title></head><...原创 2020-02-07 22:08:41 · 284 阅读 · 0 评论 -
python爬虫(五)正则表达式
正则表达式:有了正则表达式,对于从html中提取想要的信息就不在话下了。常见的匹配规则:\d:匹配任意数字^:匹配一行字符串的开头$:匹配以后字符串的结尾. :匹配任意字符,除了换行符+:匹配1个或多个表达式*:匹配1个或多个表达式python re库对于python re库提供了整个正则表达式的实现match()方法:利用此方法,传入匹配的字符串以及正则表达式,便可以...原创 2020-02-07 00:30:35 · 266 阅读 · 0 评论 -
python爬虫之requests库(五)
requests库request库比urlllib好用的多实例import requestsresponse=requests.get("http://www.baidu.com/")print(response.status_code)print(response.txt)print(type(response.txt))print(response.cookies)req...原创 2020-02-05 19:38:13 · 318 阅读 · 0 评论 -
python爬虫(四)urllib库基础知识的运用和掌握
urllib四个模块urrlib.requesturrlib.errorurrlib.parseurrlib.robotparser获取网页源代码在这里插入代码片post请求在这里插入代码片超时测试在这里插入代码片响应1.响应类型2.状态码3.响应头在这里插入代码片Hander代理(在前面已经介绍)在这里插入代码片cookies()在这里插入代码片...原创 2020-02-04 20:34:10 · 497 阅读 · 0 评论 -
python爬虫(三)温习爬虫一些基本知识
爬虫:简单的说:获取网页并提取保存信息的自动化程序request 四个基本信息1.请求方式:主要有get,post;两种 另外还有head put delete options2.请求URL:URL全称统一资源定位符,如一个网页文档,一张图片,一个视频等都可以用url唯一确定3.请求头:包含请求时头部信息,如User-agent,Host Cookies等信息4.请求体:请求...原创 2020-02-03 21:15:10 · 294 阅读 · 0 评论 -
爬虫入门(二)
fiddler一个网页的呈现,中间不知一次http请求,平均一个网页差不多10-15个http请求谷歌:右键开发者工具,network点击请求,右边栏请求详细信息右边栏:request,headers response query stirng get 参数 form data: post参数fiddler:配置:抓包<> :html内容{json}:json数...原创 2020-01-11 15:36:48 · 288 阅读 · 0 评论 -
入门爬虫
爬虫通用爬虫:百度,360,谷歌,搜狐。。。。原理: 1.抓取网页2.采集数据3.数据处理4.提供检索服务爬虫:baiduspider通用爬虫如何抓取新网页:(1)主动提交url(2)设置友情链接(3)百度会和DNS服务商合作,抓取新网站检索排名:竞价排名;根据pagerpark值、访问量、点击量robots.txt:http://www.baidu.com/robots.txt聚焦...原创 2020-01-09 21:31:41 · 244 阅读 · 0 评论