chentao3419-CSDN博客

原创快代理购买代理ip，爬取boss直聘网站。

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-22 19:21:31 663

原创 selenium，xpath结合使用爬取网站数据。阿里云智能自动识别验证码跳过手工登录步骤。

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-22 11:59:24 1514 2

原创使用xpath定位代理网站ip地址以及端口，开启进程池，多进程进行爬取可用代理ip。大大节约爬取时间

import requestsfrom lxml import etreeimport timeimport multiprocessing# 耗时 84.26855897903442 5# 耗时 44.181687355041504 10# 耗时 29.013262033462524 20# 耗时 22.825448036193848 50def get_all_proxy...

2018-08-22 11:54:06 614

原创爬虫之--使用selenium实现代码登录网页，获取cookie并且爬取网页内容

from selenium import webdriver import requests url = 'https://passport.lagou.com/login/login.html?ts=1534840857278&serviceId=lagou&service=https%253A%252F%252Fwww.lagou.com%2...

2018-08-22 11:51:15 3063 1

原创今日头条街拍图片-爬取部分

import re,requests,json,osfrom urllib import requesturl = 'https://www.toutiao.com/a6589933439766495747/'headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHT...

2018-08-16 18:44:08 286

原创 xueqiu网第一步完成

import jsonimport requests# 因为不能访问, 所以我们加个头试试 headers = { #’Accept’: ‘/‘, #’Accept-Encoding’: ‘gzip, deflate, br’, #’Accept-Language’: ‘zh-CN,zh;q=0.9,en;q=0.8’, #’Connectio...

2018-08-15 21:18:05 437

原创 cookiejar 保存cookie 信息访问登录跳转网页。

from urllib import request,parsefrom http import cookiejarimport json# 通过对象保存cookiecookie_object = cookiejar.CookieJar()# handler 对应着一个操作handler = request.HTTPCookieProcessor(cookie_object)# ...

2018-08-14 20:52:29 603

原创 python基础爬虫代码封装--post，get方法分别爬取网页

from urllib import request,parsefrom urllib.error import HTTPError,URLErrorimport jsondef post(url,form=None): return urlrequest(url,form=form)def get(url,headers=None): return urlreque...

2018-08-13 20:55:33 514

转载 cookie 与 session的区别？

一，cookie：在网站中，http的请求是无状态的，也就是说即使我们第一次登录成功并且连接上服务器之后，再次访问服务器依然不能知道当前访问的是哪个用户，cookie的出现就是为了解决这个问题。当用户通过浏览器访问服务器之后，服务器会将数据（cookie）返回会浏览器，浏览器保存在本地，当用户再次向服务器发送请求的时候，浏览器会将上次请求的返回的cookie 自动携带给服务器，服务器...

2018-08-13 19:33:13 96

chentao3419的博客