一世沙场～只为你转眸一笑-CSDN博客

转载 Scrapy的数据流程及各部分作用

Scrapy architecture（体系结构）组件： Scrapy Engine：引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。调度器（Scheduler）调度器从引擎接受 request 并将他们入队，以便之后引擎请求他们时提供给引擎。下载器（Downloader）下载器负责获取页面数据并提供给引擎，而后提供给Spider。 ...

2018-09-09 17:40:20 385

转载进程和线程

进程（process）和线程（thread）是操作系统的基本概念。进程和线程的类比计算机的核心是CPU，它承担着所有的计算任务。他就像一座工厂，时刻在运行。假设该工厂的电力有限，每次只能供给一个车间使用。也就是说，一个车间开工的时候，其他车间无法工作。背后的含义是，单个CPU一次只能运行一个任务。进程就好比工厂的车间，它代表CPU所能处理的单个任务。任意时刻，CPU总是运行一个进...

2018-09-09 17:37:24 208

原创爬虫scrapy包安装失败可能因为少个twisted 模块

twisted 模块下载链 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

2018-08-23 10:44:16 405

原创爬取智联Python招聘的信息

from bs4 import BeautifulSoup import requests # url = 'https://fe-api.zhaopin.com/c/i/sou?pageSize=60&cityId=530&workExperience=-1&education=-1&companyType=-1&employmentType=-1&am...

2018-08-23 09:03:35 1442

原创使用ip代理爬取招聘信息

from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parse headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-22 17:56:40 587

from selenium import webdriver import time option_chrome = webdriver.ChromeOptions() option_chrome.add_argument('--headless') driver = webdriver.Chrome(chrome_options=option_chrome) time.sleep(1) ur...

2018-08-22 12:00:38 1539

原创使用selenium进行登录跳转和 base64验证码验证

from selenium import webdriver import time import requests from lxml import etree import base64 # 操作浏览器 driver = webdriver.Chrome() url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-22 11:58:35 1306

原创爬取西刺代理，开启进程池，多进程爬取可用的代理ip，可以节约时间

import requests from lxml import etree import time # 424.13342022895813 def get_all_proxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...

2018-08-22 11:52:15 488

原创利用进程爬去图片

import requests from lxml import etree import os def download_img(img_url_referer_url): print("fuck, 你还来不来") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url)...

2018-08-20 19:54:15 202

原创多进程和多线程的区别

功能：进程，能够完成多任务，比如在一台电脑上同事运行多QQ 线程，能够完成多任务，比如一个QQ运行多个聊天窗口定义：进程是系统中进行资源分配和调试的一个独立单位线程是进程的一个实体，是cpu调试和分配的基本单位，它是比进程更小的能独立运行的基本单位区别：一个程序至少有一个进程，一个进程至少有一个线程线程的划分尺度小于进程（资源...

2018-08-20 12:21:56 163

原创获取腾讯职位的招聘信息

import requests from lxml import etree import pymysql class mysql_conn(): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','root','wang') self.cursor = self.db.cur...

2018-08-20 12:13:44 226

原创利用xpath获取lianjia所有租房信息，并存储到数据库

import requests from lxml import etree import time import pymysql class MyMysql(object): def __init__(self): self.db = pymysql.connect('127.0.0.1','root','******','wang') self.cu...

2018-08-20 12:12:34 410 1

原创获取电影天堂的影视链接

import requests from lxml import etree import re headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' } # def xian...

2018-08-20 12:10:51 28669

原创利用xpath下载图片

import requests from lxml import etree import os def download_img(img_url, referer): print(img_url) headers = { #'Cookie': 'Hm_lvt_dbc355aef238b6c32b43eacbbf161c3c = 1534726766;Hm_lpv...

2018-08-20 12:05:58 894

原创爬雪球前三页数据存储到数据库

import json # from urllib import request import requests headers = { # 'Accept': '*/*', # 'Accept-Encoding': 'gzip, deflate, br', # 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', # 'Con...

2018-08-15 22:56:45 195

原创 python代理ip

from urllib import request proxy = { 'http': 'http://219.141.153.41:80' } url = 'http://www.baidu.com/s?wd=ip' # request.HTTPCookieProcessor(cookie) handler = request.ProxyHandler(proxy) # 生成 o...

2018-08-14 20:57:14 351

原创把用open存储cookie的操作也进行封装

from urllib import request,parse from urllib.error import HTTPError,URLError #保存cookie from http import cookiejar class session(object): def __init__(self): coolkie_object = cookiejar.Coo...

2018-08-14 20:56:13 175

原创用open替代urlopen可以在保存cookie的情况下访问网页

from py11.dem8 import post,get impot json from urllib import request,parse from urllib import cookiejar #通过对象保存cookie cookie_objest = cookiejar.CookieJar() #handler 对应着一个操作 handler = request.HTTPCoo...

2018-08-14 20:23:14 665

原创调用之前的封装，直接获取cookie登录

from py11 impo'rt get url = 'http://www.renren.com/966927992' headers = { #'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8', #'Accept-Encoding...

2018-08-14 19:54:23 289

原创爬虫简单的get和post的封装

from urllib import request,parse from urllib.error import HTTPError URLError def get(url,deaders=None): return taragent(url,deaders=deaders) def post(url,form,deaders=deaders): return taragen...

2018-08-13 20:20:06 201

原创 cookie和session的区别

cookie 数据是存放在浏览器上 session 是存放在服务器上 cookie 不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗，考虑安全性应当使用session session 会在一定的时间内保存在服务器上，当访问增加增多，会比较占用你服务器上的性能，考虑到性能应使用cookie cookie 单个保存的数据不能超过4k，很多浏览器都限制一个站点，最多保存...

2018-08-13 12:16:28 116

weixin_42953830的博客