- 博客(16)
- 收藏
- 关注
原创 scrapy-redis改造方法
scrapy-redis 的改造方法要将一个Scrapy项目变成一个Scrapy-redis项目只需修改以下三点就可以了:1. 将爬虫的类从`scrapy.Spider`变成`scrapy_redis.spiders.RedisSpider`;或者是从`scrapy.CrawlSpider`变成`scrapy_redis.spiders.RedisCrawlSpider`。2. 将爬...
2018-08-30 08:47:06 720
原创 boss直聘的反爬取和随机代理
from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)...
2018-08-22 23:07:19 4074
原创 selenium 百度自动化
from selenium import webdriveroption_chrome = webdriver.ChromeOptions()option_chrome.add_argument('--headless')driver = webdriver.Chrome(chrome_options=option_chrome)这里写代码片url = 'http://www.baid...
2018-08-22 19:28:32 319
原创 selenium 自动化测试,自动登录网站,豆瓣例子
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%2...
2018-08-22 19:21:35 857
原创 进程池获取代理和检测代理
import requestsfrom lxml import etreeimport multiprocessing获取代理函数def get_all_proxy(queue): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windo...
2018-08-21 21:50:16 511
原创 代理的爬取和检测
import requestsfrom lxml import etreedef get_all_porxy(): url = 'http://www.xicidaili.com/nn/1' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53...
2018-08-21 19:57:50 263
原创 MP3音乐,ajax,下载
from lxml import etreeimport requestsfrom urllib import requestbase_url = 'https://www.ximalaya.com/lishi/4164479/105888330'str_url = base_url.split('/')[-1]url = 'https://www.ximalaya.com/rev...
2018-08-20 23:33:20 436
原创 5i5j的房屋出租爬取
# 导入模块import requestsfrom lxml import etreeimport time# 导入mysql封装的class类from mysql import MysqlHelper# 实例化mysql类mc = MysqlHelper()def wujia(url,headers): # 定义要爬取的页数 for i in rang...
2018-08-19 01:10:26 539
原创 腾讯招聘爬取
import requestsimport refrom lxml import etreefrom mysql import MysqlHelper# 实例化mysql封装的类mc = MysqlHelper()# sql语句sql = 'INSERT INTO tencent(didian,zhiwei,people,works) VALUE (%s,%s,%s,%s)'...
2018-08-17 20:36:47 615
原创 mysql封装,存入数据库
import pymysqlclass MysqlHelper(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='123456', database='py11', charset='utf8') ...
2018-08-17 20:33:31 380
原创 今日头条图片爬取和下载
import reimport requestsimport jsonimport osfrom urllib import requestdef list_pare(url): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K...
2018-08-16 22:59:44 1355
原创 封装函数,简单的反爬虫页面,和简单获取页面
from urllib import request,parse from urllib.error import HTTPError,URLError import json from http import cookiejarclass session(object): def init(self): # 实例化cookie用于储存cookie ...
2018-08-14 22:57:48 226
原创 封装函数,简单的反爬虫页面,和简单获取页面
导入模块from urllib import request,parse from urllib.error import HTTPError,URLError import json from http import cookiejarclass session(object): def init(self): # 实例化cookie用于储存cookie...
2018-08-14 22:54:44 180
原创 人人网登录方式
1:人人网登录第一种方式导入模块from urllib import request,parse from http import cookiejar保存cookie,实例化cookiecookie = cookiejar.CookieJar() handler = request.HTTPCookieProcessor(cookie) opener = reques...
2018-08-14 21:47:06 4350
原创 基础爬虫函数封装
from urllib import request,parse from urllib.error import HTTPError,URLError import json封装get()请求def get(url,headers=None): return urlrequests(url,headers=headers)封装POST()请求def post...
2018-08-13 21:47:41 324
原创 cookie和session的区别
cookie和session的区别总结: 1:cookie数据存放再浏览器中,session储存再服务器中。 2:cookie安全性不高,别人可以分析存放在本地的cookie并进行cookie欺骗。 3:session访问增多,会比较占用服务器的性能。 4:单个cookie保存的数据不会超过4k。 5:可以考虑将登陆信息等重要信息存放为session,其他信息需要保留,可以存放在cook...
2018-08-13 19:48:20 230 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人