自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 快代理购买代理ip,爬取boss直聘网站。

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-22 19:21:31 652

原创 selenium,xpath结合使用爬取网站数据。阿里云智能自动识别验证码跳过手工登录步骤。

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-22 11:59:24 1500 2

原创 使用xpath定位代理网站ip地址以及端口, 开启进程池,多进程进行爬取可用代理ip。大大节约爬取时间

import requestsfrom lxml import etreeimport timeimport multiprocessing# 耗时 84.26855897903442 5# 耗时 44.181687355041504 10# 耗时 29.013262033462524 20# 耗时 22.825448036193848 50def get_all_proxy...

2018-08-22 11:54:06 607

原创 爬虫之--使用selenium实现代码登录网页,获取cookie并且爬取网页内容

from selenium import webdriver import requests url = 'https://passport.lagou.com/login/login.html?ts=1534840857278&serviceId=lagou&service=https%253A%252F%252Fwww.lagou.com%2...

2018-08-22 11:51:15 3056 1

原创 今日头条街拍图片-爬取部分

import re,requests,json,osfrom urllib import requesturl = 'https://www.toutiao.com/a6589933439766495747/'headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHT...

2018-08-16 18:44:08 276

原创 xueqiu网第一步完成

import jsonimport requests# 因为不能访问, 所以我们加个头试试 headers = { #’Accept’: ‘/‘, #’Accept-Encoding’: ‘gzip, deflate, br’, #’Accept-Language’: ‘zh-CN,zh;q=0.9,en;q=0.8’, #’Connectio...

2018-08-15 21:18:05 428

原创 cookiejar 保存cookie 信息访问登录跳转网页。

from urllib import request,parsefrom http import cookiejarimport json# 通过对象保存cookiecookie_object = cookiejar.CookieJar()# handler 对应着一个操作handler = request.HTTPCookieProcessor(cookie_object)# ...

2018-08-14 20:52:29 590

原创 python基础爬虫代码封装--post,get方法分别爬取网页

from urllib import request,parsefrom urllib.error import HTTPError,URLErrorimport jsondef post(url,form=None): return urlrequest(url,form=form)def get(url,headers=None): return urlreque...

2018-08-13 20:55:33 511

转载 cookie 与 session的区别?

一 ,cookie: 在网站中,http的请求是无状态的,也就是说即使我们第一次登录成功并且连接上服务器之后,再次访问服务器依然不能知道当前访问的是哪个用户,cookie的出现就是为了解决这个问题。当用户通过浏览器访问服务器之后,服务器会将数据(cookie)返回会浏览器,浏览器保存在本地,当用户再次向服务器发送请求的时候,浏览器会将上次请求的返回的cookie 自动携带给服务器,服务器...

2018-08-13 19:33:13 81

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除