python爬虫
William_Tao(攻城狮)
学无止境,学有所成,学有所获,不断努力
展开
-
python爬虫之Selenium库(九)
Selenium概念 声明浏览器对象 from selenium import webdriver browser=webdriver.Chrome()//主要使用这个 browser=webdriver.Firefox() browser=webdriver.Edge() browser=webdriver.PhantomJS() browser=webdriver.Safari() 访问页...原创 2020-02-11 21:41:23 · 303 阅读 · 0 评论 -
爬虫之PyQuery库的使用(八)
PyQuery 概念 初始化: 字符串初始化 html=''' <div> <ul> <li class="item-0">frist item</li> <li class="item-1"><a href="link2.html">second item</a>...原创 2020-02-09 22:38:49 · 253 阅读 · 0 评论 -
python爬虫之正则表达式爬取猫眼前100的电影(七)
import json import requests from requests.exceptions import RequestException import re import time def get_one_page(url): try: headers = { 'User-Agent': 'Mozilla/5.0 (Macinto...原创 2020-02-08 20:39:28 · 586 阅读 · 0 评论 -
python爬虫(六)BeautifulSoup库
概念 安装: 安装: 命令行输入pip install beautifulsoup4 BeautifulSoup支持的解析器 基本用法 from bs4 import BeautifulSoup html=''' <html><head><title>The Dormousae's story</title></head> <...原创 2020-02-07 22:08:41 · 307 阅读 · 0 评论 -
python爬虫(五)正则表达式
正则表达式: 有了正则表达式,对于从html中提取想要的信息就不在话下了。 常见的匹配规则: \d:匹配任意数字 ^:匹配一行字符串的开头 $:匹配以后字符串的结尾 . :匹配任意字符,除了换行符 +:匹配1个或多个表达式 *:匹配1个或多个表达式 python re库 对于python re库提供了整个正则表达式的实现 match()方法: 利用此方法,传入匹配的字符串以及正则表达式,便可以...原创 2020-02-07 00:30:35 · 272 阅读 · 0 评论 -
python爬虫之requests库(五)
requests库 request库比urlllib好用的多 实例 import requests response=requests.get("http://www.baidu.com/") print(response.status_code) print(response.txt) print(type(response.txt)) print(response.cookies) req...原创 2020-02-05 19:38:13 · 354 阅读 · 0 评论 -
python爬虫(四)urllib库基础知识的运用和掌握
urllib四个模块 urrlib.request urrlib.error urrlib.parse urrlib.robotparser 获取网页源代码 在这里插入代码片 post请求 在这里插入代码片 超时测试 在这里插入代码片 响应 1.响应类型 2.状态码 3.响应头 在这里插入代码片 Hander 代理(在前面已经介绍) 在这里插入代码片 cookies() 在这里插入代码片...原创 2020-02-04 20:34:10 · 508 阅读 · 0 评论 -
python爬虫(三)温习爬虫一些基本知识
爬虫: 简单的说:获取网页并提取保存信息的自动化程序 request 四个基本信息 1.请求方式: 主要有get,post;两种 另外还有head put delete options 2.请求URL: URL全称统一资源定位符,如一个网页文档,一张图片,一个视频等都可以用url唯一确定 3.请求头: 包含请求时头部信息,如User-agent,Host Cookies等信息 4.请求体: 请求...原创 2020-02-03 21:15:10 · 323 阅读 · 0 评论 -
爬虫入门(二)
fiddler 一个网页的呈现,中间不知一次http请求,平均一个网页差不多10-15个http请求 谷歌: 右键开发者工具,network 点击请求,右边栏请求详细信息 右边栏:request,headers response query stirng get 参数 form data: post参数 fiddler: 配置: 抓包 <> :html内容 {json}:json数...原创 2020-01-11 15:36:48 · 312 阅读 · 0 评论 -
入门爬虫
爬虫 通用爬虫:百度,360,谷歌,搜狐。。。。 原理: 1.抓取网页2.采集数据3.数据处理4.提供检索服务 爬虫:baiduspider 通用爬虫如何抓取新网页:(1)主动提交url(2)设置友情链接(3)百度会和DNS服务商合作,抓取新网站 检索排名:竞价排名;根据pagerpark值、访问量、点击量 robots.txt:http://www.baidu.com/robots.txt 聚焦...原创 2020-01-09 21:31:41 · 252 阅读 · 0 评论