自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 scrapy-redis改造方法

scrapy-redis 的改造方法要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了:1. 将爬虫的类从`scrapy.Spider`变成`scrapy_redis.spiders.RedisSpider`;或者是从`scrapy.CrawlSpider`变成`scrapy_redis.spiders.RedisCrawlSpider`。2. 将爬...

2018-08-30 08:47:06 703

原创 boss直聘的反爬取和随机代理

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)...

2018-08-22 23:07:19 3929

原创 selenium 百度自动化

from selenium import webdriveroption_chrome = webdriver.ChromeOptions()option_chrome.add_argument('--headless')driver = webdriver.Chrome(chrome_options=option_chrome)这里写代码片url = 'http://www.baid...

2018-08-22 19:28:32 308

原创 selenium 自动化测试,自动登录网站,豆瓣例子

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%2...

2018-08-22 19:21:35 808

原创 进程池获取代理和检测代理

import requestsfrom lxml import etreeimport multiprocessing获取代理函数def get_all_proxy(queue): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windo...

2018-08-21 21:50:16 479

原创 代理的爬取和检测

import requestsfrom lxml import etreedef get_all_porxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53...

2018-08-21 19:57:50 239

原创 MP3音乐,ajax,下载

from lxml import etreeimport requestsfrom urllib import requestbase_url = 'https://www.ximalaya.com/lishi/4164479/105888330'str_url = base_url.split('/')[-1]url = 'https://www.ximalaya.com/rev...

2018-08-20 23:33:20 422

原创 5i5j的房屋出租爬取

# 导入模块import requestsfrom lxml import etreeimport time# 导入mysql封装的class类from mysql import MysqlHelper# 实例化mysql类mc = MysqlHelper()def wujia(url,headers): # 定义要爬取的页数 for i in rang...

2018-08-19 01:10:26 383

原创 腾讯招聘爬取

import requestsimport refrom lxml import etreefrom mysql import MysqlHelper# 实例化mysql封装的类mc = MysqlHelper()# sql语句sql = 'INSERT INTO tencent(didian,zhiwei,people,works) VALUE (%s,%s,%s,%s)'...

2018-08-17 20:36:47 596

原创 mysql封装,存入数据库

import pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py11', charset='utf8') ...

2018-08-17 20:33:31 365

原创 今日头条图片爬取和下载

import reimport requestsimport jsonimport osfrom urllib import requestdef list_pare(url): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K...

2018-08-16 22:59:44 1283

原创 封装函数,简单的反爬虫页面,和简单获取页面

from urllib import request,parse from urllib.error import HTTPError,URLError import json from http import cookiejarclass session(object): def init(self): # 实例化cookie用于储存cookie ...

2018-08-14 22:57:48 218

原创 封装函数,简单的反爬虫页面,和简单获取页面

导入模块from urllib import request,parse from urllib.error import HTTPError,URLError import json from http import cookiejarclass session(object): def init(self): # 实例化cookie用于储存cookie...

2018-08-14 22:54:44 150

原创 人人网登录方式

1:人人网登录第一种方式导入模块from urllib import request,parse from http import cookiejar保存cookie,实例化cookiecookie = cookiejar.CookieJar() handler = request.HTTPCookieProcessor(cookie) opener = reques...

2018-08-14 21:47:06 4223

原创 基础爬虫函数封装

from urllib import request,parse from urllib.error import HTTPError,URLError import json封装get()请求def get(url,headers=None): return urlrequests(url,headers=headers)封装POST()请求def post...

2018-08-13 21:47:41 297

原创 cookie和session的区别

cookie和session的区别总结: 1:cookie数据存放再浏览器中,session储存再服务器中。 2:cookie安全性不高,别人可以分析存放在本地的cookie并进行cookie欺骗。 3:session访问增多,会比较占用服务器的性能。 4:单个cookie保存的数据不会超过4k。 5:可以考虑将登陆信息等重要信息存放为session,其他信息需要保留,可以存放在cook...

2018-08-13 19:48:20 162 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除