自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 Scrapy的数据流程及各部分作用

Scrapy architecture(体系结构)组件:Scrapy Engine:引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。调度器(Scheduler)调度器从引擎接受 request 并将他们入队,以便之后引擎请求他们时提供给引擎。下载器(Downloader)下载器负责获取页面数据并提供给引擎,而后提供给Spider。...

2018-09-09 17:40:20 320

转载 进程和线程

进程(process)和线程(thread)是操作系统的基本概念。进程和线程的类比计算机的核心是CPU,它承担着所有的计算任务。他就像一座工厂,时刻在运行。假设该工厂的电力有限,每次只能供给一个车间使用。也就是说,一个车间开工的时候,其他车间无法工作。背后的含义是,单个CPU一次只能运行一个任务。进程就好比工厂的车间,它代表CPU所能处理的单个任务。任意时刻,CPU总是运行一个进...

2018-09-09 17:37:24 147

原创 爬虫scrapy包安装失败 可能因为少个twisted 模块

twisted 模块下载链https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

2018-08-23 10:44:16 336

原创 爬取智联Python招聘的信息

from bs4 import BeautifulSoupimport requests# url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=530&workExperience=-1&education=-1&companyType=-1&employmentType=-1&am...

2018-08-23 09:03:35 1370

原创 使用ip代理爬取招聘信息

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-22 17:56:40 491

原创 使用selenium的函数,不显示页面,直接跳转

from selenium import webdriverimport timeoption_chrome = webdriver.ChromeOptions()option_chrome.add_argument('--headless')driver = webdriver.Chrome(chrome_options=option_chrome)time.sleep(1)ur...

2018-08-22 12:00:38 1406

原创 使用selenium进行登录跳转 和 base64验证码验证

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-22 11:58:35 1201

原创 爬取西刺代理,开启进程池,多进程爬取可用的代理ip,可以节约时间

import requestsfrom lxml import etreeimport time# 424.13342022895813def get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...

2018-08-22 11:52:15 438

原创 利用进程爬去图片

import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): print("fuck, 你还来不来") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url)...

2018-08-20 19:54:15 165

原创 多进程和多线程的区别

功能: 进程,能够完成多任务,比如在一台电脑上同事运行多QQ 线程,能够完成多任务,比如一个QQ运行多个聊天窗口定义: 进程是系统中进行资源分配和调试的一个独立单位 线程是进程的一个实体,是cpu调试和分配的基本单位,它是比进程更小的能独立运行的基本单位区别: 一个程序至少有一个进程,一个进程至少有一个线程 线程的划分尺度小于进程(资源...

2018-08-20 12:21:56 116

原创 获取腾讯职位的招聘信息

import requestsfrom lxml import etreeimport pymysqlclass mysql_conn(): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','root','wang') self.cursor = self.db.cur...

2018-08-20 12:13:44 187

原创 利用xpath获取lianjia所有租房信息,并存储到数据库

import requestsfrom lxml import etreeimport timeimport pymysqlclass MyMysql(object): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','******','wang') self.cu...

2018-08-20 12:12:34 324

原创 获取电影天堂的影视链接

import requestsfrom lxml import etreeimport reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}# def xian...

2018-08-20 12:10:51 27806

原创 利用xpath下载图片

import requestsfrom lxml import etreeimport osdef download_img(img_url, referer): print(img_url) headers = { #'Cookie': 'Hm_lvt_dbc355aef238b6c32b43eacbbf161c3c = 1534726766;Hm_lpv...

2018-08-20 12:05:58 846

原创 爬雪球前三页数据存储到数据库

import json# from urllib import requestimport requestsheaders = { # 'Accept': '*/*', # 'Accept-Encoding': 'gzip, deflate, br', # 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', # 'Con...

2018-08-15 22:56:45 162

原创 python代理ip

from urllib import requestproxy = { 'http': 'http://219.141.153.41:80'}url = 'http://www.baidu.com/s?wd=ip'# request.HTTPCookieProcessor(cookie)handler = request.ProxyHandler(proxy)# 生成 o...

2018-08-14 20:57:14 235

原创 把用open存储cookie的操作也进行封装

from urllib import request,parsefrom urllib.error import HTTPError,URLError#保存cookiefrom http import cookiejarclass session(object): def __init__(self): coolkie_object = cookiejar.Coo...

2018-08-14 20:56:13 144

原创 用open替代urlopen可以在保存cookie的情况下访问网页

from py11.dem8 import post,getimpot jsonfrom urllib import request,parsefrom urllib import cookiejar#通过对象保存cookiecookie_objest = cookiejar.CookieJar()#handler 对应着一个操作handler = request.HTTPCoo...

2018-08-14 20:23:14 592

原创 调用之前的封装,直接获取cookie登录

from py11 impo'rt geturl = 'http://www.renren.com/966927992'headers = { #'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', #'Accept-Encoding...

2018-08-14 19:54:23 241

原创 爬虫简单的get和post的封装

from urllib import request,parsefrom urllib.error import HTTPError URLErrordef get(url,deaders=None): return taragent(url,deaders=deaders)def post(url,form,deaders=deaders): return taragen...

2018-08-13 20:20:06 159

原创 cookie和session的区别

cookie 数据是存放在浏览器上 session 是存放在服务器上cookie 不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗,考虑安全性应当使用sessionsession 会在一定的时间内保存在服务器上,当访问增加增多,会比较占用你服务器上的性能,考虑到性能应使用cookiecookie 单个保存的数据不能超过4k,很多浏览器都限制一个站点,最多保存...

2018-08-13 12:16:28 90

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除