python网络爬虫
久许
朋友拍了拍我,说我可不是什么幺蛾子
展开
-
python爬虫常用库的安装
启用快速编辑模式(在命令行中,选中文本时右键代表复制,没有选中时右键代表粘贴)request,re是python自带的。pip install -i https://pypi.doubanio.com/simple requestspip install -i https://pypi.doubanio.com/simple selenium>>> import selenium...翻译 2018-05-30 10:29:26 · 2093 阅读 · 0 评论 -
think爬虫
请求?请求类型,请求url,请求头,请求体(已post提交的话对应表单内容)响应?响应状态,响应头,响应体能处理怎样的数据?网页文本(若是ajax提交的请求,需要解析返回的json格式的数据),图片和视频(二进制形式),其他解析方式?直接处理,json解析,正则表达式,beautifulsoup,PyQuery,xPath。问题:抓到的数据和浏览器中的不一样?因为是使用javascript渲染的。...翻译 2018-05-30 13:33:48 · 172 阅读 · 0 评论 -
urllib
urllib的使用。Request1、以get方式发送请求import urllib.request response = urllib.request.urlopen('http://www.baidu.com') print(response.read().decode('utf-8'))2、以post方式发送请求import urllib.parse import urllib.reques...翻译 2018-05-30 15:42:44 · 253 阅读 · 0 评论 -
requests
import requests response = requests.get('https://www.baidu.com/') print(type(response)) print(response.status_code) print(type(response.text)) print(response.text) print(response.cookies)get请求import r...翻译 2018-05-30 16:37:48 · 253 阅读 · 0 评论 -
正则表达式的使用
import requests from requests.exceptions import RequestException import re import json headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom...翻译 2018-05-31 11:41:27 · 253 阅读 · 0 评论 -
ajax请求数据,并处理返回的数据
import requests from urllib.parse import urlencode from requests.exceptions import RequestException import json import time import re import pymongo import os from hashlib import md5 hostName = ...原创 2018-06-01 13:08:13 · 2839 阅读 · 0 评论 -
selenium的使用
引入from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC fr...翻译 2018-06-01 16:24:44 · 193 阅读 · 0 评论