自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 python实现各类常见加密方式

前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes。所以当我们在Python中进行加密操作的时候,要确保我们操作的是Bytes,否则就会报错。将字符串和Bytes互相转换可以使用encode()和decode()方法。如下所示:# 方法中不传参数则是以默认的utf-8编码进行转换In [1]: '南北'.encode()Out...

2018-09-10 22:43:14 1406

原创 Scrapy爬虫框架 介绍

一、Scrapy框架简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。二、架构流程图接下来的图表展现了S...

2018-08-29 08:35:12 283

原创 爬虫框架

一、python爬虫框架一些爬虫项目的半成品二、常见python爬虫框架(1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。(2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,...

2018-08-28 10:44:41 583

原创 Scrapy的架构(爬虫框架)

这就是整个Scrapy的架构图了; 这里写图片描述Scrapy机构流程过程 Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item PipelineScrapy Engine(引擎):  这是引擎,负责Spiders、ItemPipel...

2018-08-27 11:58:19 353

原创 电影天堂获取电影

from urllib import requestimport reimport pymysqldb = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='xueqiu')cursor = db.cursor()for i in range(3): url...

2018-08-23 21:38:57 12862

原创 利用selenium模拟浏览器登录豆瓣并且自动识别验证码(在需要验证码登录的情况下)

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-23 21:36:20 462

原创 自动识别获取ip爬取数据信息

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-22 22:50:02 586

原创 爬虫--进程与线程 实现图片下载

import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): print("快到碗里来!") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url) ...

2018-08-20 21:38:36 161

原创 进程与线程的定义

进程狭义定义*:*进程是正在运行的程序的实例(an instance of a computer program that is being executed)。 广义定义*:*进程是一个具有一定独立功能的程序关于某个数据集合的一次运行活动。它是操作系统动态执行的基本单元,在传统的操作系统中,进程既是基本的分配单元,也是基本的执行单元。 进程的概念主要有两点:第一,进程是一个实体。每一个进...

2018-08-20 19:48:59 223

原创 网络爬虫--头条街拍美女

import reimport requestsimport jsonimport osfrom urllib import requestheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.33...

2018-08-16 22:16:00 417

原创 封装函数--MySQL数据库的操作(windows)

import pymysql# mysql_coon 主要功能是将链接数据库的操作变成只链接一次class mysql_conn(object): # 魔术方法,初始化,构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1', user='root', password='1234...

2018-08-15 22:24:23 333

原创 正则表达式入门测试(一)

import re# 1. 以 h 开头# line = 'hasdfg123'## match_res = re.match('h',line)## if match_res:# print('匹配成功')# print(match_res)# else:# print('匹配失败')# 2. 以h开头后面跟着一个字符# line = 'h...

2018-08-15 19:26:15 280

原创 封装函数--编辑器实现翻译

import timeimport randomimport jsonfrom Day1.fengzhuang_all import postdef md5_my(need_str): import hashlib # 创建md5对象 md5_o = hashlib.md5() # 需要有bytes, 作为参数 # 由str, 转换成 bytes...

2018-08-14 22:34:53 488

原创 爬虫--函数的封装

from urllib import request,parsefrom urllib.error import HTTPError,URLErrordef get(url,headers=None): return urlrequests(url,headers=headers)def post(url,form,headers=None): return urlreque...

2018-08-13 21:40:53 332

原创 Session与Cookie

一 定义Session : 是存放在服务器端的,类似于Session结构来存放用户数据,当浏览器 第一次发送请求时,服务器自动生成了一个Session和一个Session ID用来唯一标识这个Session,并将其通过响应发送到浏览器。当浏览器第二次发送请求,会将前一次服务器响应中的Session ID放在请求中一并发送到服务器上,服务器从请求中提取出Session ID,并和保存的所有Ses...

2018-08-13 18:04:59 212 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除