自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 Scrapy的数据流程及各部分作用

Scrapy architecture(体系结构) 组件: Scrapy Engine: 引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。 调度器(Scheduler) 调度器从引擎接受 request 并将他们入队,以便之后引擎请求他们时提供给引擎。 下载器(Downloader) 下载器负责获取页面数据并提供给引擎,而后提供给Spider。 ...

2018-09-09 17:40:20 385

转载 进程和线程

进程(process)和线程(thread)是操作系统的基本概念。 进程和线程的类比 计算机的核心是CPU,它承担着所有的计算任务。他就像一座工厂,时刻在运行。 假设该工厂的电力有限,每次只能供给一个车间使用。也就是说,一个车间开工的时候,其他车间无法工作。背后的含义是,单个CPU一次只能运行一个任务。 进程就好比工厂的车间,它代表CPU所能处理的单个任务。任意时刻,CPU总是运行一个进...

2018-09-09 17:37:24 208

原创 爬虫scrapy包安装失败 可能因为少个twisted 模块

twisted 模块下载链 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

2018-08-23 10:44:16 405

原创 爬取智联Python招聘的信息

from bs4 import BeautifulSoup import requests # url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=530&workExperience=-1&education=-1&companyType=-1&employmentType=-1&am...

2018-08-23 09:03:35 1442

原创 使用ip代理爬取招聘信息

from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parse headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-22 17:56:40 587

原创 使用selenium的函数,不显示页面,直接跳转

from selenium import webdriver import time option_chrome = webdriver.ChromeOptions() option_chrome.add_argument('--headless') driver = webdriver.Chrome(chrome_options=option_chrome) time.sleep(1) ur...

2018-08-22 12:00:38 1539

原创 使用selenium进行登录跳转 和 base64验证码验证

from selenium import webdriver import time import requests from lxml import etree import base64 # 操作浏览器 driver = webdriver.Chrome() url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-22 11:58:35 1306

原创 爬取西刺代理,开启进程池,多进程爬取可用的代理ip,可以节约时间

import requests from lxml import etree import time # 424.13342022895813 def get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...

2018-08-22 11:52:15 488

原创 利用进程爬去图片

import requests from lxml import etree import os def download_img(img_url_referer_url): print("fuck, 你还来不来") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url)...

2018-08-20 19:54:15 202

原创 多进程和多线程的区别

功能: 进程,能够完成多任务,比如在一台电脑上同事运行多QQ 线程,能够完成多任务,比如一个QQ运行多个聊天窗口 定义: 进程是系统中进行资源分配和调试的一个独立单位 线程是进程的一个实体,是cpu调试和分配的基本单位,它是比进程更小的能独立运行的基本单位 区别: 一个程序至少有一个进程,一个进程至少有一个线程 线程的划分尺度小于进程(资源...

2018-08-20 12:21:56 163

原创 获取腾讯职位的招聘信息

import requests from lxml import etree import pymysql class mysql_conn(): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','root','wang') self.cursor = self.db.cur...

2018-08-20 12:13:44 226

原创 利用xpath获取lianjia所有租房信息,并存储到数据库

import requests from lxml import etree import time import pymysql class MyMysql(object): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','******','wang') self.cu...

2018-08-20 12:12:34 410 1

原创 获取电影天堂的影视链接

import requests from lxml import etree import re headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' } # def xian...

2018-08-20 12:10:51 28669

原创 利用xpath下载图片

import requests from lxml import etree import os def download_img(img_url, referer): print(img_url) headers = { #'Cookie': 'Hm_lvt_dbc355aef238b6c32b43eacbbf161c3c = 1534726766;Hm_lpv...

2018-08-20 12:05:58 894

原创 爬雪球前三页数据存储到数据库

import json # from urllib import request import requests headers = { # 'Accept': '*/*', # 'Accept-Encoding': 'gzip, deflate, br', # 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', # 'Con...

2018-08-15 22:56:45 195

原创 python代理ip

from urllib import request proxy = { 'http': 'http://219.141.153.41:80' } url = 'http://www.baidu.com/s?wd=ip' # request.HTTPCookieProcessor(cookie) handler = request.ProxyHandler(proxy) # 生成 o...

2018-08-14 20:57:14 351

原创 把用open存储cookie的操作也进行封装

from urllib import request,parse from urllib.error import HTTPError,URLError #保存cookie from http import cookiejar class session(object): def __init__(self): coolkie_object = cookiejar.Coo...

2018-08-14 20:56:13 175

原创 用open替代urlopen可以在保存cookie的情况下访问网页

from py11.dem8 import post,get impot json from urllib import request,parse from urllib import cookiejar #通过对象保存cookie cookie_objest = cookiejar.CookieJar() #handler 对应着一个操作 handler = request.HTTPCoo...

2018-08-14 20:23:14 665

原创 调用之前的封装,直接获取cookie登录

from py11 impo'rt get url = 'http://www.renren.com/966927992' headers = { #'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', #'Accept-Encoding...

2018-08-14 19:54:23 289

原创 爬虫简单的get和post的封装

from urllib import request,parse from urllib.error import HTTPError URLError def get(url,deaders=None): return taragent(url,deaders=deaders) def post(url,form,deaders=deaders): return taragen...

2018-08-13 20:20:06 201

原创 cookie和session的区别

cookie 数据是存放在浏览器上 session 是存放在服务器上 cookie 不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗,考虑安全性应当使用session session 会在一定的时间内保存在服务器上,当访问增加增多,会比较占用你服务器上的性能,考虑到性能应使用cookie cookie 单个保存的数据不能超过4k,很多浏览器都限制一个站点,最多保存...

2018-08-13 12:16:28 116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除