J__333-CSDN博客

原创 python实现各类常见加密方式

前言我们所说的加密方式，都是对二进制编码的格式进行加密的，对应到Python中，则是我们的Bytes。所以当我们在Python中进行加密操作的时候，要确保我们操作的是Bytes，否则就会报错。将字符串和Bytes互相转换可以使用encode()和decode()方法。如下所示：# 方法中不传参数则是以默认的utf-8编码进行转换In [1]: '南北'.encode()Out...

2018-09-10 22:43:14 1459

原创 Scrapy爬虫框架介绍

一、Scrapy框架简介Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。二、架构流程图接下来的图表展现了S...

2018-08-29 08:35:12 312

原创爬虫框架

一、python爬虫框架一些爬虫项目的半成品二、常见python爬虫框架(1)Scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。(2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，...

2018-08-28 10:44:41 599

原创 Scrapy的架构（爬虫框架）

这就是整个Scrapy的架构图了；这里写图片描述Scrapy机构流程过程 Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》Spiders》Item PipelineScrapy Engine（引擎）: 这是引擎，负责Spiders、ItemPipel...

2018-08-27 11:58:19 383

原创电影天堂获取电影

from urllib import requestimport reimport pymysqldb = pymysql.connect(host='127.0.0.1', user='root', password='123456', port=3306, database='xueqiu')cursor = db.cursor()for i in range(3): url...

2018-08-23 21:38:57 13032

原创利用selenium模拟浏览器登录豆瓣并且自动识别验证码（在需要验证码登录的情况下）

from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A%...

2018-08-23 21:36:20 476

原创自动识别获取ip爬取数据信息

from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) C...

2018-08-22 22:50:02 620

原创爬虫--进程与线程实现图片下载

import requestsfrom lxml import etreeimport osdef download_img(img_url_referer_url): print("快到碗里来！") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url) ...

2018-08-20 21:38:36 169

原创进程与线程的定义

进程狭义定义*：*进程是正在运行的程序的实例（an instance of a computer program that is being executed）。广义定义*：*进程是一个具有一定独立功能的程序关于某个数据集合的一次运行活动。它是操作系统动态执行的基本单元，在传统的操作系统中，进程既是基本的分配单元，也是基本的执行单元。进程的概念主要有两点：第一，进程是一个实体。每一个进...

2018-08-20 19:48:59 233

原创网络爬虫--头条街拍美女

import reimport requestsimport jsonimport osfrom urllib import requestheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.33...

2018-08-16 22:16:00 430

原创封装函数--MySQL数据库的操作（windows）

import pymysql# mysql_coon 主要功能是将链接数据库的操作变成只链接一次class mysql_conn(object): # 魔术方法，初始化，构造函数 def __init__(self): self.db = pymysql.connect(host='127.0.0.1', user='root', password='1234...

2018-08-15 22:24:23 364

原创正则表达式入门测试（一）

import re# 1. 以 h 开头# line = 'hasdfg123'## match_res = re.match('h',line)## if match_res:# print('匹配成功')# print(match_res)# else:# print('匹配失败')# 2. 以h开头后面跟着一个字符# line = 'h...

2018-08-15 19:26:15 291

原创封装函数--编辑器实现翻译

import timeimport randomimport jsonfrom Day1.fengzhuang_all import postdef md5_my(need_str): import hashlib # 创建md5对象 md5_o = hashlib.md5() # 需要有bytes, 作为参数 # 由str, 转换成 bytes...

2018-08-14 22:34:53 500

原创爬虫--函数的封装

from urllib import request,parsefrom urllib.error import HTTPError,URLErrordef get(url,headers=None): return urlrequests(url,headers=headers)def post(url,form,headers=None): return urlreque...

2018-08-13 21:40:53 343

原创 Session与Cookie

一定义Session ：是存放在服务器端的，类似于Session结构来存放用户数据，当浏览器第一次发送请求时，服务器自动生成了一个Session和一个Session ID用来唯一标识这个Session，并将其通过响应发送到浏览器。当浏览器第二次发送请求，会将前一次服务器响应中的Session ID放在请求中一并发送到服务器上，服务器从请求中提取出Session ID，并和保存的所有Ses...

2018-08-13 18:04:59 255 1

J__333的博客