super_man_ing-CSDN博客

原创 scrapy-redis改造方法

scrapy-redis 的改造方法要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了：1. 将爬虫的类从`scrapy.Spider`变成`scrapy_redis.spiders.RedisSpider`；或者是从`scrapy.CrawlSpider`变成`scrapy_redis.spiders.RedisCrawlSpider`。2. 将爬...

2018-08-30 08:47:06 720

原创 boss直聘的反爬取和随机代理

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)...

2018-08-22 23:07:19 4074

原创 selenium 百度自动化

from selenium import webdriveroption_chrome = webdriver.ChromeOptions()option_chrome.add_argument('--headless')driver = webdriver.Chrome(chrome_options=option_chrome)这里写代码片url = 'http://www.baid...

2018-08-22 19:28:32 319

原创 selenium 自动化测试，自动登录网站，豆瓣例子

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&amp;redir=https%3A%2...

2018-08-22 19:21:35 857

原创进程池获取代理和检测代理

import requestsfrom lxml import etreeimport multiprocessing获取代理函数def get_all_proxy(queue): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windo...

2018-08-21 21:50:16 511

原创代理的爬取和检测

import requestsfrom lxml import etreedef get_all_porxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53...

2018-08-21 19:57:50 263

原创 MP3音乐，ajax，下载

from lxml import etreeimport requestsfrom urllib import requestbase_url = 'https://www.ximalaya.com/lishi/4164479/105888330'str_url = base_url.split('/')[-1]url = 'https://www.ximalaya.com/rev...

2018-08-20 23:33:20 436

原创 5i5j的房屋出租爬取

# 导入模块import requestsfrom lxml import etreeimport time# 导入mysql封装的class类from mysql import MysqlHelper# 实例化mysql类mc = MysqlHelper()def wujia(url,headers): # 定义要爬取的页数 for i in rang...

2018-08-19 01:10:26 539

原创腾讯招聘爬取

import requestsimport refrom lxml import etreefrom mysql import MysqlHelper# 实例化mysql封装的类mc = MysqlHelper()# sql语句sql = 'INSERT INTO tencent(didian,zhiwei,people,works) VALUE (%s,%s,%s,%s)'...

2018-08-17 20:36:47 615

原创 mysql封装，存入数据库

import pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py11', charset='utf8') ...

2018-08-17 20:33:31 380

原创今日头条图片爬取和下载

import reimport requestsimport jsonimport osfrom urllib import requestdef list_pare(url): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K...

2018-08-16 22:59:44 1355

原创封装函数，简单的反爬虫页面，和简单获取页面

from urllib import request,parse from urllib.error import HTTPError,URLError import json from http import cookiejarclass session(object): def init(self): # 实例化cookie用于储存cookie ...

2018-08-14 22:57:48 226

原创封装函数，简单的反爬虫页面，和简单获取页面

导入模块from urllib import request,parse from urllib.error import HTTPError,URLError import json from http import cookiejarclass session(object): def init(self): # 实例化cookie用于储存cookie...

2018-08-14 22:54:44 180

原创人人网登录方式

1:人人网登录第一种方式导入模块from urllib import request,parse from http import cookiejar保存cookie，实例化cookiecookie = cookiejar.CookieJar() handler = request.HTTPCookieProcessor(cookie) opener = reques...

2018-08-14 21:47:06 4350

原创基础爬虫函数封装

from urllib import request,parse from urllib.error import HTTPError,URLError import json封装get（）请求def get(url,headers=None): return urlrequests(url,headers=headers)封装POST()请求def post...

2018-08-13 21:47:41 324

原创 cookie和session的区别

cookie和session的区别总结： 1：cookie数据存放再浏览器中，session储存再服务器中。 2：cookie安全性不高，别人可以分析存放在本地的cookie并进行cookie欺骗。 3：session访问增多，会比较占用服务器的性能。 4：单个cookie保存的数据不会超过4k。 5：可以考虑将登陆信息等重要信息存放为session，其他信息需要保留，可以存放在cook...

2018-08-13 19:48:20 230 2

super_man_ing的博客

原创 scrapy-redis改造方法

原创 boss直聘的反爬取和随机代理

原创 selenium 百度自动化

原创 selenium 自动化测试，自动登录网站，豆瓣例子

原创进程池获取代理和检测代理

原创代理的爬取和检测

原创 MP3音乐，ajax，下载

原创 5i5j的房屋出租爬取

原创腾讯招聘爬取

原创 mysql封装，存入数据库

原创今日头条图片爬取和下载

原创封装函数，简单的反爬虫页面，和简单获取页面

原创封装函数，简单的反爬虫页面，和简单获取页面

原创人人网登录方式

原创基础爬虫函数封装

原创 cookie和session的区别

空空如也

空空如也