python网络爬虫
久许
朋友拍了拍我,说我可不是什么幺蛾子
展开
-
python爬虫常用库的安装
启用快速编辑模式(在命令行中,选中文本时右键代表复制,没有选中时右键代表粘贴)request,re是python自带的。pip install -i https://pypi.doubanio.com/simple requestspip install -i https://pypi.doubanio.com/simple selenium>>> import selenium...翻译 2018-05-30 10:29:26 · 2105 阅读 · 0 评论 -
think爬虫
请求?请求类型,请求url,请求头,请求体(已post提交的话对应表单内容)响应?响应状态,响应头,响应体能处理怎样的数据?网页文本(若是ajax提交的请求,需要解析返回的json格式的数据),图片和视频(二进制形式),其他解析方式?直接处理,json解析,正则表达式,beautifulsoup,PyQuery,xPath。问题:抓到的数据和浏览器中的不一样?因为是使用javascript渲染的。...翻译 2018-05-30 13:33:48 · 180 阅读 · 0 评论 -
urllib
urllib的使用。Request1、以get方式发送请求import urllib.requestresponse = urllib.request.urlopen('http://www.baidu.com')print(response.read().decode('utf-8'))2、以post方式发送请求import urllib.parseimport urllib.reques...翻译 2018-05-30 15:42:44 · 261 阅读 · 0 评论 -
requests
import requestsresponse = requests.get('https://www.baidu.com/')print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies)get请求import r...翻译 2018-05-30 16:37:48 · 265 阅读 · 0 评论 -
正则表达式的使用
import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom...翻译 2018-05-31 11:41:27 · 258 阅读 · 0 评论 -
ajax请求数据,并处理返回的数据
import requestsfrom urllib.parse import urlencodefrom requests.exceptions import RequestExceptionimport jsonimport timeimport reimport pymongoimport osfrom hashlib import md5hostName = ...原创 2018-06-01 13:08:13 · 2851 阅读 · 0 评论 -
selenium的使用
引入from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfr...翻译 2018-06-01 16:24:44 · 198 阅读 · 0 评论